zoukankan      html  css  js  c++  java
  • 爬虫流程

    整个爬虫流程
        1、scrapy crawl chouti --nolog
        
        2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象
            - 执行Scheduler.from_crawler
            - 执行Scheduler.from_settings
                -读取配置文件:
                    SCHEDULER_PERSIST            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
                    SCHEDULER_FLUSH_ON_START     # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
                    SCHEDULER_IDLE_BEFORE_CLOSE  # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到) 
                -继续读取配置文件:
                    SCHEDULER_QUEUE_KEY = '%(spider)s:requests'     # 调度器中请求存放在redis中的key
                    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),
                                                                                 FifoQueue(列表)、LifoQueue(列表)
                    SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'  # 去重规则,在redis中保存时对应的key
                    SCHEDULER_DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
                    SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"  # 对保存到redis中的数据进行序列化,默认使用pickle 
                -再继续读取配置文件:
                    # REDIS_HOST = 'localhost'     # 主机名
                    # REDIS_PORT = 6379            # 端口
                    # REDIS_PARAMS  = {}           # Redis连接参数 默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
                    # REDIS_ENCODING = "utf-8"     # redis编码类型
            - 实例化Scheduler对象
        
        3、爬虫开始执行起始URL
            - 调用 scheduler.enqueue_request方法
                    def enqueue_request(self, request):
                        # 请求是否需要过滤               #去重规则中是否已经有(是否已经访问过)
                        if not request.dont_filter and self.df.request_seen(request):
                            self.df.log(request, self.spider)
                            return False  # 已经访问过就不要再访问了
                        if self.stats:
                            self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
                        self.queue.push(request) # 未访问过就加到队列里面去等调试器来调用 
                        return True
        4、下载器去调度器中获取任务, 去下载
            -调用 scheduler.next_requests()
                    def next_request(self):
                        block_pop_timeout = self.idle_before_close
                        request = self.queue.pop(block_pop_timeout)
                        if request and self.stats:
                            self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
                        return request
  • 相关阅读:
    Saltstack module acl 详解
    Saltstack python client
    Saltstack简单使用
    P5488 差分与前缀和 NTT Lucas定理 多项式
    CF613D Kingdom and its Cities 虚树 树形dp 贪心
    7.1 NOI模拟赛 凸包套凸包 floyd 计算几何
    luogu P5633 最小度限制生成树 wqs二分
    7.1 NOI模拟赛 dp floyd
    springboot和springcloud
    springboot集成mybatis
  • 原文地址:https://www.cnblogs.com/xiongfanyong/p/13173633.html
Copyright © 2011-2022 走看看