zoukankan      html  css  js  c++  java
  • scrapy-redis数据去重与分布式框架

     

    数据去重

    • 生成指纹:利用hashlib的sha1,对request的请求体、请求url、请求方法进行加密,返回一个40位长度的16进制的字符串,称为指纹
    fp = hashlib.sha1()
    fp.update(to_bytes(request.method))
    fp.update(to_bytes(canonicalize_url(request.url)))
    fp.update(request.body or b'')
    return fp.hexdigest()
    • 进队:(队列对requests对象去重,zset对指纹去重)
      1. 如果请求需要过滤,并且当前请求的指纹已经在指纹集合中存在了,就不能进入队列了
      2. 如果请求需要过滤,并且请求的指纹是一个新的指纹,进入队列
      3. 如果不需要过滤,直接进入队列
    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        self.queue.push(request)
        return True

    分布式爬虫

    • 类继承RedisSpider、RedisCrawlSpider
    • 使用redis_key,在redis数据库中存储start_urls的键名称

    每台电脑从redis数据库中对应的redis_key名称中获取url,发起请求。

  • 相关阅读:
    Uboot USB模式(RK3288变砖头的解决办法)
    C++ 解析一
    C++基础
    shell脚本分析二
    ASCII
    POJ 1970 The Game (DFS)
    PoJ1979 Red and Black (DFS)
    UVA 572 Oil Deposits (DFS)
    打印日历
    求第N个素数
  • 原文地址:https://www.cnblogs.com/zwp-627/p/11296153.html
Copyright © 2011-2022 走看看