【Python】Scrapy基础

zoukankan html css js c++ java

【Python】Scrapy基础
一、Scrapy 架构
- Engine（引擎）：负责 Spider（爬虫）、Item Pipeline（管道）、Downloader（下载器）、Scheduler（调度器）中的通讯和数据传递。
- Scheduler：接受 Engine 发送过来的 Request 请求，按照一定方式入队，再交给 Downloader 下载。可实现去重。Scheduler 的请求队列为空时，程序才会终止。
- Downloader：下载 Engine 发送（中间通过Scheduler）的所有 Requests 请求，并将其获取到的 Responses 交还给 Engine，由 Engine 交给 Spider 处理。
- Spider：处理所有 Responses ①提取 Item 字段需要的数据，交给 Pipeline 存储 ②将需要跟进的 URL 提交给 Engine，再进入 Scheduler。
- Item Pipeline：负责处理 Spider 提取到的 Item，并进行后期处理，例如分析过滤数据，按自己定制的格式保存到 json、数据库等。
- Downloader Middlewares：自定义扩展下载功能，例如给每个 Request 加代理、User-Agent 等。
- Spider Middlewares：自定义扩展 Engine 和 Spider 中间的通信，例如进入 Spider 的 Responses、从 Spider 出去的Requests。用处不大，大部分爬虫功能在 Spider 里实现。
二、Scrapy 安装

1、Windows
- pip install scrapy
2、Linux
- 安装非 python 依赖：sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
- sudo pip install scrapy
三、官方文档
- 英文文档
- 中文文档
四、
查看全文

相关阅读:
理解javascript中的Array类型
 解决EF 4.0 中数据缓存机制
 vim学习之旅01-文本搜索并高亮显示
 Quartz.Net 学习之路02 初探Quartz.Net
Quartz.Net 学习之路01 安装Quartz.Net
EasyUI这个框架用了好久了，总结一下遇到的问题和解决方法
 记录剪切板
 如何将Unicode字符转换成简体字
 ass字幕转换成文本文件
 Change WORDS

原文地址：https://www.cnblogs.com/wayne793377164/p/8966950.html