scrapy爬虫框架处理流程简介 - 走看看

zoukankan html css js c++ java

scrapy爬虫框架处理流程简介

1、SPIDERS的yeild将request发送给ENGIN
2、ENGINE对request不做任何处理发送给SCHEDULER
3、SCHEDULER( url调度器)，生成request交给ENGIN
4、ENGINE拿到request，通过MIDDLEWARE进行层层过滤发送给DOWNLOADER
5、DOWNLOADER在网上获取到response数据之后，又经过MIDDLEWARE进行层层过滤发送给ENGIN
6、ENGINE获取到response数据之后，返回给SPIDERS，SPIDERS的parse()方法对获取到的response数据进行处理，解析出items或者requests
7、将解析出来的items或者requests发送给ENGIN
8、ENGIN获取到items或者requests，将items发送给ITEM PIPELINES，将requests发送给SCHEDULER

查看全文

相关阅读:
hadoop-处理小文件
 hadoop 文件合并
 hadoop multipleoutputs
超酷的 Vim 搜索技巧
 linux中DHCP服务配置文件/etc/dhcpd.conf详细说明
 cobbler启动问题
 MYSQL 5.5.32的单机多实例部署
 自动化运维之Cobbler自动化部署安装操作系统
 运维自动化之Cobbler系统安装使用详解[good]
Cobbler自动部署主机系统

原文地址：https://www.cnblogs.com/zylq-blog/p/7565276.html

Copyright © 2011-2022 走看看