Python爬虫：scrapy 的运行流程和各模块的作用 - 走看看

zoukankan html css js c++ java

Python爬虫：scrapy 的运行流程和各模块的作用
scrapy的运行流程
- 爬虫 -> 起始URL封装Request -> 爬虫中间件 -> 引擎 -> 调度器(Scheduler): 缓存请求, 请求去重
- 调度器 -> 请求 -> 引擎 -> 经过下载器中间件 -> 下载器(发送请求, 获取响应数据, 封装Response)
- 下载器 - Response(响应) -> 经过下载器中间件 -> 引擎
- 引擎 - response -> 经过爬虫中间件 -> 爬虫 (解析数据, 提取URL封装请求, 提取数据)
- 爬虫:
  
  提取URL封装请求 -> 爬虫中间件 -> 引擎 -> 调度器
  
  提取数据 -> 引擎 -> 管道(Pipeline: 处理数据, 比如保存)
各个模块及作用:

爬虫模块:
1. 构建起始请求 2. 响应数据解析(1. 提取URL封装请求, 2. 提取数据) (需要自己写)
调度器模块:
1. 缓存请求 2. 请求去重 (已经实现了)
下载器模块:

　　发送请求, 获取响应数据,封装为Response(已经实现了)

管道模块:

　　处理数据, 比如保存(需要自己写)

引擎模块:

　　总指挥: 负责模块之间调度, 以及数据传递(已经实现了)

下载器中间件:

　　在引擎和下载器之间, 可以对请求和响应数据进行处理, 比如: 实现随机代理IP, 随机User-Agent

爬虫中间件:

　　爬虫和引擎之间, 可以对请求和响应数据进行处理, 比如过滤. (很少)
查看全文

相关阅读:
Python和C#基本算法实现对比
 数据库并发
 NetCore 启动地址配置详解
 SkyWalking Liunx 环境搭建&NetCore接入
 Autofac踩坑经历
 centos 7 安装elasticsearch
centos 7 java1.8安装
 AppDomin学习与分享
 .Net 程序代码混淆加密工具 ILProtector
c# 重新认识 Double 浮点型

原文地址：https://www.cnblogs.com/mzfly/p/9953068.html

Copyright © 2011-2022 走看看