zoukankan      html  css  js  c++  java
  • python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)

    相关代码已经修改调试成功----2017-4-13
    详情代码请移步我的github:https://github.com/pujinxiao/sina_spider

    一、说明

    1.目标网址:新浪微博

    2.实现:跟踪比较活跃的微博号所发的微博内容,隔3-5分钟刷新(爬取)一次,只有更新了才爬的到,不爬取历史微博内容哦,爬取正文、文中图片、所属微博昵称、发布时间(时间戳格式)

    3.数据:数据都存在mysql数据库中。

    4.补充

    1.表cookies_list是存放你登录微博的cookies,我这里选择cookie登录。在遇到cookie被禁止就换cookie,微博帐号可以在某宝买到,你懂得。

    2.表headers_list是存放User-Agent,随机调用浏览器的头。

    3.表weibo-id-list是存放你要跟踪的微博帐号的url,如:新浪电影微博

    4.表weibo_logging是记录所有爬取的信息,不管有没有用,可以当做日志来看,其实在爬取的过程中有很多无效的信息,都需要过滤的。

    5.表weibo_result是最终的有效结果。

    二、运行

    1. 首先配置好数据库,mysql。除了表weibo_result不用创建以外,其他都要额外创建好。例如:我存放在百度网盘里面,可自行看相关字段-------链接:http://pan.baidu.com/s/1nuSx8vB 密码:krqp
    2. 备注处更改表明可以随便更改名称。很多说明程序也都有,点击运行即可。

    三、问题----欢迎留言提出问题

    声明:本项目原先是想监控某些微博帐号所发内容,但是本人能力有限,所写并不是很好,就当是练手了。在这里推荐一个开源的关于新浪微博的爬虫的项目,我也是写完才发现这个的,但是实现的功能和我不一样,里面东西比较多,也比较复杂,可以学习学习。

    1.这次就不写问题了,当练手了。有学习python爬虫的欢迎一起学习,我的博客:https://www.cnblogs.com/jinxiao-pu/欢迎参观。

    欢迎有兴趣的小伙伴帮我优化,解决以上问题,之后我将合并你的代码,作为贡献者,共同成长。

    四、附加

    我在另外的python_service.py文件中,我把次程序写进了windows服务里面,只要电脑一开机,设置一下就会自动启动爬取。具体的都在参考资料里面。

    参考资料:

    http://blog.csdn.net/zhou191954/article/details/8290010

    http://www.tuicool.com/articles/Qjei2e

    详情代码请移步我的github:https://github.com/pujinxiao/sina_spider


    如果本项目对你有用请给我一颗star,万分感谢。

  • 相关阅读:
    Python Scrapy框架
    Python Mongo数据库
    Python Selenium框架
    Python BeautifulSoup库使用
    Python 存入三大文件
    Python Xpath的解析,应用
    Python Requests 高级
    错误码:2003 不能连接到 MySQL 服务器在 (10061)
    MySQL连接本地数据库时报1045错误的解决方法
    iWebShop安装教程
  • 原文地址:https://www.cnblogs.com/jinxiao-pu/p/6703523.html
Copyright © 2011-2022 走看看