scrapy-redis

scrapy_redis的大概思路：将爬取的url通过 hashlin.sha1生成唯一的指纹，持久化存入redis，之后的url判断是否已经存在，达到去重的效果

下载scrapy-redis

 git clone https://github.com/rmax/scrapy-redis.git

settings

PIDER_MODULES = ['example.spiders']
NEWSPIDER_MODULE = 'example.spiders'

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

# 指定RFPDupeFilter方法给request对象去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 指定Scheduler队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 队列中的内容是否持久化保存，False在redis关闭的时候清空redis
SCHEDULER_PERSIST = True


ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    # scrapy_redis实现 items保存到redis的pipline
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

# 指定redis地址
# REDIS_URl = 'redis://192.168.1.103:6379'
# 另一种形式 指定redis地址
REDIS_HOST = 'localhost'
REDIS_PORT = '6379'

查看全文

相关阅读:
[转] CSocket 和CAsyncSocket类介绍
 error C2275: 'SOCKET' : illegal use of this type as an expression
tagVARIANT、VARIANT、_variant_t和COleVariant
使用MFC WinInet进行FTP中文件的简单上传和下载功能
 【转】VS2008快速将代码中字符串改为_T(“”)风格的方法
 【转】Internet与Intranet区别
 POSIX是什么？
Ocx控件注册不成功？可能是tlb文件导致~
十三种基于直方图的图像全局二值化算法原理、实现、代码及效果（转）
图像匹配之欧式距离算法（转）

原文地址：https://www.cnblogs.com/tangpg/p/10784559.html