scrapy-redis源代码分析

zoukankan html css js c++ java

scrapy-redis源代码分析

原创文章，链接：http://blog.csdn.net/u012150179/article/details/38226253

+

(I) connection.py
负责依据setting中配置实例化redis连接。被dupefilter和scheduler调用。总之涉及到redis存取的都要使用到这个模块。

(II) dupefilter.py
负责运行requst的去重。实现的非常有技巧性，使用redis的set数据结构。可是注意scheduler并不使用当中用于在这个模块中实现的dupefilter键做request的调度。而是使用queue.py模块中实现的queue。
当request不反复时，将其存入到queue中。调度时将其弹出。

（III）queue.py
其作用如II所述，可是这里实现了三种方式的queue：
FIFO的SpiderQueue，SpiderPriorityQueue。以及LIFI的SpiderStack。默认使用的是第二中。这也就是出现之前文章中所分析情况的原因（链接：）。

（IV）pipelines.py
这是是用来实现分布式处理的作用。它将Item存储在redis中以实现分布式处理。

另外能够发现，相同是编写pipelines，在这里的编码实现不同于文章（链接：）中所分析的情况，因为在这里须要读取配置，所以就用到了from_crawler()函数。

（V）scheduler.py
此扩展是对scrapy中自带的scheduler的替代（在settings的SCHEDULER变量中指出），正是利用此扩展实现crawler的分布式调度。其利用的数据结构来自于queue中实现的数据结构。

scrapy-redis所实现的两种分布式：爬虫分布式以及item处理分布式就是由模块scheduler和模块pipelines实现。上述其他模块作为为二者辅助的功能模块。

（VI）spider.py
设计的这个spider从redis中读取要爬的url,然后运行爬取，若爬取过程中返回很多其它的url，那么继续进行直至全部的request完毕。
之后继续从redis中读取url，循环这个过程。

分析：在这个spider中通过connect signals.spider_idle信号实现对crawler状态的监视。当idle时。返回新的make_requests_from_url(url)给引擎，进而交给调度器调度。

原创文章，链接：http://blog.csdn.net/u012150179/article/details/38226253

查看全文

相关阅读:
CONFIGURE ADFS 3.0 WITH SHAREPOINT 2013
Sharepoint Solution Gallery Active Solution时激活按钮灰色不可用的解决方法
 Dynamics CRM 2015Online Update1 new feature之插件跟踪日志
 Dynamics CRM2013/2015 Plugin注册工具Register New Assembly时无法看到注册按钮的解决办法
 Dynamics CRM 2015 站点地图公告配置实体显示名称的变更
 Dynamics CRM 2015 Online Update1 UI界面的更新变化
 SQL Server2012 AlwaysOn 无法将数据库联接到可用性组针对主副本的连接未处于活动状态
 Dynamics CRM 2013 SP1 客户表单界面上联系人subgrid上的添加现有联系人功能缺失
 （转载）StringGrid常用属性和常用操作
 （转载）delphi 常用函数(数学)

原文地址：https://www.cnblogs.com/wzjhoutai/p/6753565.html

scrapy-redis源代码分析

(I) connection.py

(II) dupefilter.py

（III）queue.py

（IV）pipelines.py

（V）scheduler.py

（VI）spider.py