scrapy框架结构与工作原理 - 走看看

zoukankan html css js c++ java

scrapy框架结构与工作原理

组件：

ENGINE：引擎，框架的核心，其他组件在其控制下协同工作。

SCHEDULER：调度器，负责对SPIDER提交的下载请求进行调度

DOWNLOADER：下载器，负责下载页面，发送HTTP请求/接收HTTP响应

SPIDER：爬虫，负责提取页面数据，并产生对新的页面的下载请求

MIDDLEWARE：中间件，负责对Request对象和Response对象进行处理

ITEM PIPELINE：数据管道，负责对爬取到的数据进行处理

数据流：

REQUEST：Scrapy中HTTP请求对象

RESPONSE：Scrapy中HTTP响应对象

ITEM ：从页面中爬取的一项数据

理解Scrapy爬虫工作原理，以对象在框架中流动的过程解释：

*当SPIDER要爬取URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE；

*Request对象随后进入SCHEDULER按照某种算法进行排队，之后某个时间SCHEDULER将其出队，送往DOWNLOADER；

*DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造一个Response对象，其中包含HTML文本

*Response对象最终会被传递到SPIDER的页面解析函数进行处理，从页面中提取的数据封装为ITEM提交给ENHINE，之后被送到ITEMPIPLINES进行处理，最终可能以某种形式存

储，另一方面页面解析函数还会从页面中提取URL，构造新的Request对象；

查看全文

相关阅读:
android动画（一）Interpolator
android端手机测试体系 (转）
Android的一些常用命令提示符（cmd）指令[转]
五招避开银行小额账户管理费[转]
WEB服务器、应用程序服务器、HTTP服务器区别[转]
如何解决 “invalid resource directory name”, resource “crunch”[转]
Eclipse中给jar包导入JavaDoc的方法
 rotium(无源码)获取控件较简单的办法
 基于Robotium框架的测试工程如何导入Robotium包的源码
 常用模块中函数的作用

原文地址：https://www.cnblogs.com/master-song/p/9035561.html

Copyright © 2011-2022 走看看