zoukankan      html  css  js  c++  java
  • python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)

    相关代码已经修改调试成功----2017-4-13
    详情代码请移步我的github:https://github.com/pujinxiao/sina_spider

    一、说明

    1.目标网址:新浪微博

    2.实现:跟踪比较活跃的微博号所发的微博内容,隔3-5分钟刷新(爬取)一次,只有更新了才爬的到,不爬取历史微博内容哦,爬取正文、文中图片、所属微博昵称、发布时间(时间戳格式)

    3.数据:数据都存在mysql数据库中。

    4.补充

    1.表cookies_list是存放你登录微博的cookies,我这里选择cookie登录。在遇到cookie被禁止就换cookie,微博帐号可以在某宝买到,你懂得。

    2.表headers_list是存放User-Agent,随机调用浏览器的头。

    3.表weibo-id-list是存放你要跟踪的微博帐号的url,如:新浪电影微博

    4.表weibo_logging是记录所有爬取的信息,不管有没有用,可以当做日志来看,其实在爬取的过程中有很多无效的信息,都需要过滤的。

    5.表weibo_result是最终的有效结果。

    二、运行

    1. 首先配置好数据库,mysql。除了表weibo_result不用创建以外,其他都要额外创建好。例如:我存放在百度网盘里面,可自行看相关字段-------链接:http://pan.baidu.com/s/1nuSx8vB 密码:krqp
    2. 备注处更改表明可以随便更改名称。很多说明程序也都有,点击运行即可。

    三、问题----欢迎留言提出问题

    声明:本项目原先是想监控某些微博帐号所发内容,但是本人能力有限,所写并不是很好,就当是练手了。在这里推荐一个开源的关于新浪微博的爬虫的项目,我也是写完才发现这个的,但是实现的功能和我不一样,里面东西比较多,也比较复杂,可以学习学习。

    1.这次就不写问题了,当练手了。有学习python爬虫的欢迎一起学习,我的博客:https://www.cnblogs.com/jinxiao-pu/欢迎参观。

    欢迎有兴趣的小伙伴帮我优化,解决以上问题,之后我将合并你的代码,作为贡献者,共同成长。

    四、附加

    我在另外的python_service.py文件中,我把次程序写进了windows服务里面,只要电脑一开机,设置一下就会自动启动爬取。具体的都在参考资料里面。

    参考资料:

    http://blog.csdn.net/zhou191954/article/details/8290010

    http://www.tuicool.com/articles/Qjei2e

    详情代码请移步我的github:https://github.com/pujinxiao/sina_spider


    如果本项目对你有用请给我一颗star,万分感谢。

  • 相关阅读:
    用Java redis 实现发送手机验证码的功能
    redis之Java Jedis 的使用(使用maven引入)
    设计模式之代理模式
    Redis相关配置
    Redis五大数据类型
    设计模式之享元模式
    设计模式之外观模式
    设计模式之组合模式
    设计模式之装饰者模式
    设计模式之适配器模式
  • 原文地址:https://www.cnblogs.com/jinxiao-pu/p/6703523.html
Copyright © 2011-2022 走看看