zoukankan html css js c++ java

分布式爬虫

安装：

pip3 install scrapy-redis

1. 修改原来的爬虫继承和start_urls

from scrapy_redis.spiders import RedisSpider
class CnblogsSpider(RedisSpider):
      #start_urls = ['http://www.cnblogs.com/']
    redis_key = 'myspider:start_urls'

2. 在settings中配置

# 2 在setting中配置
  SCHEDULER = "scrapy_redis.scheduler.Scheduler"
  DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 这里可以不配就走每一个的数据库，配置了就走公用的数据库
  ITEM_PIPELINES = {
     'scrapy_redis.pipelines.RedisPipeline': 300
  }
# REDIS_HOST = 'localhost'
# REDIS_PORT = 6379
# REDIS_ENCODING = 'utf8'
REDIS_PARAMS = {'password':'2694'}

3. 多台机器启动爬虫

4. 通过命名向redis中发送起始url

redis-cli
auth password
lpush myspider:start_urls https://www.cnblogs.com

查看全文

相关阅读:
软件工程课堂二
 大二下学期第三周总结
 大二第二个学期的自我介绍
 如何将非ARC的项目转换成ARC
UIScrollView
关于nil和 null和NSNull的区别及相关问题
 提高iOS开发效率的第三方框架等--不断更新中。。。
iOS中常见的设计模式（MVC/单例/委托/观察者）
TCP/IP、Http、Socket的区别
 iOS使用AVFoundation实现二维码扫描

原文地址：https://www.cnblogs.com/baohanblog/p/12689088.html