python爬虫入门（5）-Scrapy概述 - 走看看

zoukankan html css js c++ java

python爬虫入门（5）-Scrapy概述
http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。
引擎(Scrapy Engine)，用来处理整个系统的数据流处理，触发事务。

调度器(Scheduler)，用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。

下载器(Downloader)，用于下载网页内容，并将网页内容返回给蜘蛛。

蜘蛛(Spiders)，蜘蛛是主要干活的，用它来制订特定域名或网页的解析规则。编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

项目管道(Item Pipeline)，负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)，位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

蜘蛛中间件(Spider Middlewares)，介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middlewares)，介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。
null
查看全文

相关阅读:
一枚渣硕的2019校招记录
 PLT hook笔记
 从排序数组中删除重复项
 golang刷Leetcode系列 --- 实现strStr()
Docker镜像浅谈
 golang刷Leetcode系列 --- 加1
ubuntu包管理机制
 LeetCode 234——回文链表
 LeetCode 19——删除链表的倒数第N个节点（JAVA）
LeetCode 160——相交链表（JAVA）

原文地址：https://www.cnblogs.com/tcheng/p/6888935.html

Copyright © 2011-2022 走看看