Scrapy项目结构分析和工作流程

zoukankan html css js c++ java

Scrapy项目结构分析和工作流程
新建的空Scrapy项目：
spiders目录：负责存放继承自scrapy的爬虫类。里面主要是用于分析response并提取返回的item或者是下一个URL信息，每个Spider负责处理特定的网站或一些网站。

__init__.py: 项目的初始化文件。

items.py：负责数据模型的建立，类似于实体类。定义我们所要爬取的信息的相关属性。Item对象是种容器，用来保存获取到的数据。 middlewares.py：自己定义的中间件。可以定义相关的方法，用以处理蜘蛛的响应输入和请求输出。 pipelines.py：负责对spider返回数据的处理。在item被Spider收集之后，就会将数据放入到item pipelines中，在这个组件是一个独立的类，他们接收到item并通过它执行一些行为，同时也会决定item是否能留在pipeline，或者被丢弃。 settings.py：负责对整个爬虫的配置。提供了scrapy组件的方法，通过在此文件中的设置可以控制包括核心、插件、pipeline以及Spider组件。 scrapy.cfg： scrapy基础配置
scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

普通爬虫流程：

Scrapy工作流程

scrapy框架的工作流程：

1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。
2.Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要有User_Agent, Proxy代理)交给Downloader。
3.Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。
4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存（可以是本地，可以是数据库）。
提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

scrapy爬虫框架之理解篇（个人理解）
查看全文

相关阅读:
JavaScript Array 对象（length）方法（contact、push,pop,join,map、reverse、slice、sort)
echarts+thinkphp 学习写的第一个程序
 jQuery DOM 元素方法（get）
jQuery 遍历 (each、map)
jQuery 文档操作方法(append)
echarts之series，markLine、markPoint
echarts, 小知识点随意记录，
ehcarts之toolbox，工具栏
 路径 php中'.'和'..'还有'./'和'../'
ThinkPHP CodeIgniter URL访问举例

原文地址：https://www.cnblogs.com/tanrong/p/8269155.html

最新文章
美女购物
 喷水装置（一）
迷茫时就切两道--借用
 折半查找
 进制转换
 ？魔族密码
 希尔排序
 巴什博弈
 贪吃蛇
 C++笔试题（四）

Scrapy项目结构分析和工作流程

普通爬虫流程：

Scrapy工作流程

scrapy爬虫框架之理解篇（个人理解）