scrapy基础知识之 Scrapy-Redis分布式策略： - 走看看

zoukankan html css js c++ java

scrapy基础知识之 Scrapy-Redis分布式策略：
Scrapy-Redis分布式策略：

假设有四台电脑：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一台电脑都可以作为 Master端或 Slaver端，比如：
- Master端(核心服务器) ：使用 Windows 10，搭建一个Redis数据库，不负责爬取，只负责url指纹判重、Request的分配，以及数据的存储
- Slaver端(爬虫程序执行端) ：使用 Mac OS X 、Ubuntu 16.04、CentOS 7.2，负责执行爬虫程序，运行过程中提交新的Request给Master
1. 首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；
2. Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。
Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。
查看全文

相关阅读:
struts2 批量上传.
jsoup html解析器实现对博客园博文标题链接抓取
 赶鸭子上架的cdq分治
 RE:从零开始的莫比乌斯反演
 我永远无法学会的dp
gym 101915
2017-2018 ACM-ICPC Latin American Regional Programming Contest GYM101889
网络流24T
re：从零开始的数位dp
Codeforces Round 504

原文地址：https://www.cnblogs.com/huwei934/p/6971622.html

Copyright © 2011-2022 走看看