python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）

zoukankan html css js c++ java

python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13
详情代码请移步我的github：https://github.com/pujinxiao/sina_spider

一、说明

1.目标网址：新浪微博

2.实现：跟踪比较活跃的微博号所发的微博内容，隔3-5分钟刷新（爬取）一次，只有更新了才爬的到，不爬取历史微博内容哦，爬取正文、文中图片、所属微博昵称、发布时间（时间戳格式)。

3.数据：数据都存在mysql数据库中。

4.补充：

1.表cookies_list是存放你登录微博的cookies，我这里选择cookie登录。在遇到cookie被禁止就换cookie，微博帐号可以在某宝买到，你懂得。

2.表headers_list是存放User-Agent，随机调用浏览器的头。

3.表weibo-id-list是存放你要跟踪的微博帐号的url，如：新浪电影微博

4.表weibo_logging是记录所有爬取的信息，不管有没有用，可以当做日志来看，其实在爬取的过程中有很多无效的信息，都需要过滤的。

5.表weibo_result是最终的有效结果。

二、运行
首先配置好数据库，mysql。除了表weibo_result不用创建以外，其他都要额外创建好。例如：我存放在百度网盘里面，可自行看相关字段-------链接：http://pan.baidu.com/s/1nuSx8vB 密码：krqp

备注处更改表明可以随便更改名称。很多说明程序也都有，点击运行即可。
三、问题----欢迎留言提出问题

声明：本项目原先是想监控某些微博帐号所发内容，但是本人能力有限，所写并不是很好，就当是练手了。在这里推荐一个开源的关于新浪微博的爬虫的项目，我也是写完才发现这个的，但是实现的功能和我不一样，里面东西比较多，也比较复杂，可以学习学习。

1.这次就不写问题了，当练手了。有学习python爬虫的欢迎一起学习，我的博客：https://www.cnblogs.com/jinxiao-pu/欢迎参观。

欢迎有兴趣的小伙伴帮我优化，解决以上问题，之后我将合并你的代码，作为贡献者,共同成长。

四、附加

我在另外的python_service.py文件中，我把次程序写进了windows服务里面，只要电脑一开机，设置一下就会自动启动爬取。具体的都在参考资料里面。

参考资料：

http://blog.csdn.net/zhou191954/article/details/8290010

http://www.tuicool.com/articles/Qjei2e

详情代码请移步我的github：https://github.com/pujinxiao/sina_spider

如果本项目对你有用请给我一颗star，万分感谢。
查看全文

相关阅读:
public/private/protected的具体区别
 解决密码自动填充的问题
 tp导出excel
好久没更了，确实太忙了--dedecms篇
 解决css的float父div没有高度
 随笔
 总结最近写的h5项目
 ajax删除当前行
 开发时常遇到的小问题
 js处理时间戳

原文地址：https://www.cnblogs.com/jinxiao-pu/p/6703523.html

python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）

一、说明

二、运行

三、问题----欢迎留言提出问题

四、附加