scrapy不抓取重复的网页解决办法 - 走看看

zoukankan html css js c++ java

scrapy不抓取重复的网页解决办法
1、scrapy爬虫遇到一个问题，有时候会对一个网页重复爬取提取不同的数据，这时候会发现，后面的那个重复爬取scrapy直接终止了。

原因：

scrapy 的request逻辑里面 dont_filter=False，也就是重复网页不爬取，需要修改下这个参数

classscrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback, flags, cb_kwargs])

解决办法：

Scrapy的官方文档：

http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request

Ｒequest函数在文档中的定义：

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

在这儿， request的 dont_filter 设置为Ｔrue就可以了

也就是说
```
yield scrapy.Request(url=nexturl, callback=self.parse,dont_filter=True)
搞定
```
查看全文

相关阅读:
Linux升级内核教程（CentOS7）
如何更新远程主机上的 Linux 内核
 CentOS在ssh下远程重装系统
 独立服务器远程重装Linux系统
 大公司都有哪些开源项目~~~阿里，百度，腾讯，360，新浪，网易，小米等
 win7旗舰版64位缺失tbb.dll文件
 一文看懂IC芯片生产流程：从设计到制造与封装
 Open WATCOM指南
 eComStation 1.2
开源网络准入系统（open source Network Access Control system）

原文地址：https://www.cnblogs.com/duole/p/11433907.html

Copyright © 2011-2022 走看看