zoukankan      html  css  js  c++  java
  • scrapy执行流程

    scrapy执行流程

     

    整体流程

    - 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。
    - 迭代器循环时会获取Request对象,而request对象中封装了要访问的URL和回调函数。
    - 将所有的request对象(任务)放到调度器中,用于以后被下载器下载。

    - 下载器去调度器中获取要下载任务(就是Request对象),下载完成后执行回调函数。

    - 回到spider的回调函数中,
    yield Request()
    yield Item()

    具体流程

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    1. scrapy crawl chouti --nolog
         
    2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调度器对象
        - 执行Scheduler.from_crawler
        - 执行Scheduler.from_settings
            - 读取配置文件:
                SCHEDULER_PERSIST            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
                SCHEDULER_FLUSH_ON_START     # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
                SCHEDULER_IDLE_BEFORE_CLOSE  # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
            - 读取配置文件:  
                SCHEDULER_QUEUE_KEY          # %(spider)s:requests
                SCHEDULER_QUEUE_CLASS        # scrapy_redis.queue.FifoQueue
                SCHEDULER_DUPEFILTER_KEY     # '%(spider)s:dupefilter'
                DUPEFILTER_CLASS             # 'scrapy_redis.dupefilter.RFPDupeFilter'
                SCHEDULER_SERIALIZER         # "scrapy_redis.picklecompat"
     
            - 读取配置文件:
                REDIS_HOST = '140.143.227.206'                            # 主机名
                REDIS_PORT = 8888                                   # 端口
                REDIS_PARAMS  = {'password':'beta'}                                  # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
                REDIS_ENCODING = "utf-8"     
        - 示例Scheduler对象
         
    3. 爬虫开始执行起始URL
        - 调用 scheduler.enqueue_requests()
            def enqueue_request(self, request):
                # 请求是否需要过滤?
                # 去重规则中是否已经有?(是否已经访问过,如果未访问添加到去重记录中。)
                if not request.dont_filter and self.df.request_seen(request):
                    self.df.log(request, self.spider)
                    # 已经访问过就不要再访问了
                    return False
                 
                if self.stats:
                    self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
                # print('未访问过,添加到调度器', request)
                self.queue.push(request)
                return True
         
    4. 下载器去调度器中获取任务,去下载
         
        - 调用 scheduler.next_requests()
            def next_request(self):
                block_pop_timeout = self.idle_before_close
                request = self.queue.pop(block_pop_timeout)
                if request and self.stats:
                    self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
                return request
  • 相关阅读:
    快学Java NIO
    GoldenGate 12.3 MA架构介绍系列(4)–Restful API介绍
    GoldenGate 12.3 MA架构介绍系列(3)
    GoldenGate实时投递数据到大数据平台(1)-MongoDB
    GoldenGate 12.3 MA架构介绍系列(2)
    GoldenGate 12.3 MA架构介绍系列(1)
    关于集成抽取进程重启后的现象分析
    GoldenGate Logdump基本使用
    76 道 Oracle Goldengate 面试问题
    ogg 12.3 中 format release的变化
  • 原文地址:https://www.cnblogs.com/xyhh/p/10860844.html
Copyright © 2011-2022 走看看