zoukankan      html  css  js  c++  java
  • scrapy框架结构与工作原理

    组件:

    ENGINE:引擎,框架的核心,其他组件在其控制下协同工作。

    SCHEDULER:调度器,负责对SPIDER提交的下载请求进行调度

    DOWNLOADER:下载器,负责下载页面,发送HTTP请求/接收HTTP响应

    SPIDER:爬虫,负责提取页面数据,并产生对新的页面的下载请求

    MIDDLEWARE:中间件,负责对Request对象和Response对象进行处理

    ITEM PIPELINE:数据管道,负责对爬取到的数据进行处理

    数据流:

    REQUEST:Scrapy中HTTP请求对象

    RESPONSE:Scrapy中HTTP响应对象

    ITEM : 从页面中爬取的一项数据

    理解Scrapy爬虫工作原理,以对象在框架中流动的过程解释:

    *当SPIDER要爬取URL地址的页面时,需使用该URL构造一个Request对象,提交给ENGINE;

    *Request对象随后进入SCHEDULER按照某种算法进行排队,之后某个时间SCHEDULER将其出队,送往DOWNLOADER;

    *DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器,之后用服务器返回的HTTP响应构造一个Response对象,其中包含HTML文本

    *Response对象最终会被传递到SPIDER的页面解析函数进行处理,从页面中提取的数据封装为ITEM提交给ENHINE,之后被送到ITEMPIPLINES进行处理,最终可能以某种形式存

    储,另一方面页面解析函数还会从页面中提取URL,构造新的Request对象;

  • 相关阅读:
    常见mysql中出现的问题
    php 根据身份证号相关操作
    Linux的上传文件和下载文件
    php实现socket
    PHP开启缓存加速
    spark使用Hive表操作
    部署ganglia3.7
    Redis Cluster架构优化
    spark读取hdfs数据本地性异常
    spark join broadcast优化
  • 原文地址:https://www.cnblogs.com/master-song/p/9035561.html
Copyright © 2011-2022 走看看