Python Scrapy爬虫（上）

zoukankan html css js c++ java

Python Scrapy爬虫（上）
Python Scrapy爬虫

预备知识：

1、Scrapy框架：是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。

2、Scrapy去重原理：Scrapy本身自带有一个中间件。scrapy源码中可以找到一个dupefilters.py去重器，需要将dont_filter设置为False开启去重，默认是True，没有开启去重。

3、指纹去重：对于每一个URL的请求，调度器都会根据请求得相关信息加密得到一个指纹信息，并且将该URL的指纹信息和set()集合中的指纹信息进行比对。如果set()集合中已经存在这个数据，就不在将这个Request放入队列中，如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。

4、Scrapy框架下各个模块：
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等

Scheduler(调度器): 假设其为一个URL的优先队列，由其来决定下一个要抓取的网址是什么，同时去除重复的网址。用户可以自己的需求定制调度器

Downloader（下载器）：用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上

Spider（爬虫）：用户定制自己的爬虫，用于从特定的网页中提取需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接（URL），让Scrapy继续抓取下一个页面。

Item Pipeline(实体管道)：用于处理爬虫提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息

Downloader Middlewares（下载中间件/有User_Agent、Proxy代理）：可以当作是一个可以自定义扩展下载功能的组件

Spider Middlewares（Spider中间件）：可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）
图-1 scrapy框架
查看全文

相关阅读:
Struts2：对Action中方法进行输入校验
 struts2拦截器加自定义注解实现权限控制
 struts2文件上传
 struts2访问或添加几个属性（request/session/application属性）
Struts2日期类型转换
 struts2接受请求参数
 struts2 动态方法调用
 为应用指定多个struts配置文件
 SpringMVC工作原理
 Struts2相关面试题

原文地址：https://www.cnblogs.com/yinminbo/p/11824330.html

Python Scrapy爬虫（上）

Python Scrapy爬虫

预备知识：