zoukankan      html  css  js  c++  java
  • 爬虫爬取百度贴吧(python)

    以往编写的一个爬取百度贴吧的小爬虫,发布出来,供大家参考。

    本爬虫是在pycharm中编写完成,服务器环境是ubuntu16.04,使用语言是python3,导入的模块包是requests模块

    # 导入模块

    import requests

    # 定义百度贴吧爬虫类

    class TiebaSpider(object):
    def __init__(self):
    self.base_url = 'http://tieba.baidu.com/f'
    self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
    self.tieba_name = input('请输入贴吧名字:')
    self.start_page = int(input('请输入开始页数:'))
    self.end_page = int(input('请输入结束页数:'))

    # 1.发送请求,获得数据
    def send_request(self,tieba_params):
    response = requests.get(self.base_url,headers=self.headers,params=tieba_params)
    data = response.content
    return data

    # 2.保存数据
    def write_file(self,data,page):
    # 设置路径页数
    file_path = '/home/python/PycharmProjects/scrapy_demo/Tieba/' + str(page) + '.html'
    # 打印正在抓取的页数,使用format拼接打印正在抓取的页数
    print('正在抓取第{}页'.format(page))
    with open(file_path,'wb') as f:
    f.write(data)

    # 3.调度任务
    def run(self):
    # 循环爬取数据
    for page in range(self.start_page,self.end_page+1):
    # 1.拼接数据
    tieba_params = {
    "kw": self.tieba_name,
    # 确定页数
    "pn": (page - 1)*50
    }
    # 2.发送请求
    data = self.send_request(tieba_params)
    # 3.保存数据
    self.write_file(data,page)

    if __name__ == '__main__':
    # 实例化对象
    tool = TiebaSpider()
    # 调用run方法
    tool.run()

    在编写调试过程中,出现了几个问题,现列举如下

    错误问题:

    1.爬取网页时url 填写http开头,而不是填写https开头
    2. User-Agent不对(之前一直提取不出来数据,还以为是爬虫哪里写错了,后来查找发现是设置的U-A有问题,换了一个U-A就能将数据爬取出来了),也会提取不出来数据
    3.路径要选择正确,不要写错了,例如 with open('file_path','wb')是错误的, with open(file_path,'wb')才是正确的

  • 相关阅读:
    Hbase写数据,存数据,读数据的详细过程 分类: B7_HBASE 2015-03-15 20:11 117人阅读 评论(0) 收藏
    机器学习(十四):深度学习梯度优化算法(SGD SGD-M NAG AdaGrad RMSProp Adam )
    机器学习(十三):卷积神经网络(CNN)
    机器学习(十一):FP增长(FP-growth)
    机器学习(十):Apriori算法
    Gulp命令自动生成精灵图
    esLint参数设置
    js 监控iframe URL的变化
    React+Redux学习笔记:React+Redux简易开发步骤
    React组件实现越级传递属性
  • 原文地址:https://www.cnblogs.com/hjl666/p/10833264.html
Copyright © 2011-2022 走看看