Day2-异步IO+Scrapy爬虫 - 走看看

zoukankan html css js c++ java

Day2-异步IO+Scrapy爬虫

一、异步IO

　　http://www.cnblogs.com/wupeiqi/articles/6229292.html

　　　这篇文章写的不错，展示了多种高并发的方式，从同步执行→多线程→多进程→asyncio→gevent→twisted→tornado等等，详细介绍了并发的原理。最后由于水平有限，我采用了gevent的简单到令人发指的模块。这里就不详细说明了，具体见上面的博客吧。

二、Scrapy爬虫

　　http://www.cnblogs.com/wupeiqi/articles/6229292.html

　　　这个博客处也有对Scrapy模块的详细介绍。同时这几天我也看完了一本新书，感觉不错。介绍的scrapy爬虫内容也很详细。见下图，

这本书虽然是国人写的，不过内容和详实，其中也有很多scrapy实例，很多例子直接套用就可以用于实战，所以还是蛮不错的。博客和这本书可以相互补充，共同完善我们的知识点。

PS：今天刚看完这本书，明天尝试着用scrapy爬取一下我国四大财经网站：东方财富网、新浪财经、和讯网、同花顺金融服务网。爬虫学完还需要学习mongodb和redis，哎，任重而道远啊。。。。

查看全文

相关阅读:
MongoDB存储
 python 查看文件名和文件路径
 Python遍历文件个文件夹
 Python图片缩放
 python opencv
Python3 关于UnicodeDecodeError/UnicodeEncodeError: ‘gbk’ codec can’t decode/encode bytes类似的文本编码问题
 jmter使用
 HttpRunnerManager使用
 PostMan使用
 工作中的思想

原文地址：https://www.cnblogs.com/GavinSimons/p/8344058.html

Copyright © 2011-2022 走看看