学习三 - 走看看

zoukankan html css js c++ java

学习三

scrapy框架
1.scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，使用了Twisted（扭曲）异步
网络框架，可以加快下载是速度。
同步异步（过程）阻塞非阻塞（状态）
2.工作流程：
scheduler（调度器）里面存放request对象，这个对象里有url地址
scrapy engine 引擎
Downloader 下载器根据请求做出响应，交给引擎
Spiders 爬虫把url构造成request对象，交给调度器将数据交给Item Pipeline
两个中间键可以对request response做一些处理
spider中间键不会对提取的数据进行处理，是专门用item pipeline来将数据进行处理，
Scrapy Engine:引擎,处理整个框架的数据流

Scheduler:调度器,接收引擎发过来的请求,将其排至队列中,当引擎再次请求时返回

Downloader:下载器,下载所有引擎发送的请求,并将获取的源代码返回给引擎,之后由引擎交给爬虫处理

Spiders:爬虫,接收并处理所有引擎发送过来的源代码,从中分析并提取item字段所需要的数据,并将需要跟进的url提交给引擎,再次进入调度器

Item Pipeline:管道,负责处理从爬虫中获取的Item,并进行后期处理

Downloader Middlewares:下载中间件,可以理解为自定义扩展下载功能的组件

Spider Middlewares:Spider中间件,自定义扩展和操作引擎与爬虫之间通信的功能组件
3.scrapy的所有命令都是在windows的终端里完成的

查看全文

相关阅读:
js 工厂模式、简单模式、抽象模式
 Angular 框架介绍
 Node.js从入门到实战ECMAScript6一页纸总结（很大的一页纸）
ECMAScript 5和ECMAScript6的新特性以及浏览器支持情况
 JSONP 教程
 jQuery ajax() 方法
 AJAX异步的 JavaScript
自动化构建工具--gulp的初识和使用
 front-end 前端发展学习路线参考图
 Webpack 常用命令总结以及常用打包压缩方法

原文地址：https://www.cnblogs.com/zhang12345/p/12507931.html

Copyright © 2011-2022 走看看