一. 分布式
-
概念 : 需要搭建一个分布式的机群, 然后在机群的每一台电脑中执行同一组程序, 让其对某一个网站的数据进行联合分布爬取
-
scrapy + scrapy_redis实现分布式
scrapy_redis组件的功能 :
- 提供可被共享的调度器和管道
- 数据只能存储到redis数据库中
-
实现流程
- 修改源文件
#以创建CrawlSpider为例 #导包 from scrapy_redis.spiders import RedisCrawlSpider #修改爬虫类的父类 class FbsSpider(RedisCrawlSpider): #注释掉allow_domains和start_urls,分布式不推荐使用start_urls #添加新属性 redis_key ='fbsQueue'#表示的是可以被共享的调度器队列的名称,将起始url直接放到调度器中
- settings文件的配置
ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline':300 } #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #不清除Redis队列,起到记忆功能 #例如隔几天后重新爬取同一个网站,设置为True则之前爬取过的数据不再爬取 SCHEDULER_PERSIST = True #指定redis数据库 #指定连接到redis时使用的端口和地址(可选) REDIS_HOST = '指定一个ip地址' REDIS_PORT = 6379
-
对redis数据库的配置文件进行操作(redis.windows.conf)
- 关闭默认绑定 : 56 Line : #bind 127.0.0.1
- 关闭保护模式 :75 Line : protect-mode no
-
携带配置文件启动redis服务端, 再启动客户端
- redis-server.exe redis.windows.conf
- redis-cli
-
在pycharm中启动程序
scrapy run spider fbs.py #fbs是自定义爬虫名之后程序会等待我们进行redis数据库的操作, 才会继续进行
-
向调度器的队列中扔入一个起始的url :
启动redis客户端,输入lpush fbsQueue "起始url"
二. 增量式
核心机制: 对详情页的url去重. redis的set实现去重
原理实现过程:
- 需要两张表, 一张保存数据源文件, 一份保存数据文件生成的数据指纹
- 每次先将爬取到的文件生成一份对应的数据指纹,
- 如果已经存在数据指纹库中, 则不需要向管道提交,
- 否则保存数据指纹和原文件
#python源文件 from redis import Redis class ZlsSpider(CrawlSpider): #将连接对象作为ZlsSpider类的一个属性 conn = Redis(host = '127.0.0.1',port = 6379) pass def parse_item(self,response): #... detail_url = li.xpath('xxxxxxx') #将解析得到的url和redis数据库中的表作比较 #对于不需要深度爬取的页面,可以将要爬取的数据文件拼成一个字符串,然后放入到hashlib中生成一个专属source_id,就相当于url,以后爬取的时候同样判断这个source_id是否在对应的data_id表中 #source = item['author'] + item['content'] #source_id =hashlib.sha256(source.encode()).hexdigest() #ex = self.conn.sadd('data_id',source_id) #sadd()功能:如果url存在则不向表中添加数据并返回0,不存在则向表中添加并返回1 ex = self.conn.sadd('urls_id',detail_url)#urls_id为数据库记录url是否爬取过的表 if ex == 1 : #手动发送请求 yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) def parse_detail(self,response): content = response.xpath('xxxxxxxxxx').extract_first() item = response.meta['item'] #item对象在前面的for循环中创建,保证每次循环请求不同的url时生成一个item对象 item['content'] =content #将item对象传递给管道 yield item
#pipelines文件中 def process_item(self, item, spider): #接受爬虫类的conn conn = spider.conn conn.lpush('detail_data',item) #detail_data用来保存爬取的数据信息 return item
三. 反爬机制总结
- robots
- UA伪装
- 验证码
- 代理
- cookie
- 动态变化的请求参数
- js加密
- js混淆
- 图片懒加载
- 动态数据的捕获
- selenium :规避检测