zoukankan      html  css  js  c++  java
  • scrapy不抓取重复的网页解决办法

    1、scrapy爬虫遇到一个问题,有时候会对一个网页重复爬取提取不同的数据,这时候会发现,后面的那个重复爬取scrapy直接终止了。

    原因:

    scrapy 的request逻辑里面  dont_filter=False,也就是重复网页不爬取,需要修改下这个参数

    classscrapy.http.Request(url[, callbackmethod='GET'headersbodycookiesmetaencoding='utf-8'priority=0dont_filter=Falseerrbackflagscb_kwargs])

     

     

    解决办法:

    Scrapy的官方文档:

    http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request

    Request函数在文档中的定义:

    class scrapy.http.Request(url[, callbackmethod='GET'headersbodycookiesmetaencoding='utf-8'priority=0dont_filter=Falseerrback])

    在这儿, request的 dont_filter 设置为True就可以了

    也就是说

    yield scrapy.Request(url=nexturl, callback=self.parse,dont_filter=True)
    搞定
  • 相关阅读:
    文件同步工具
    截图工具
    DBF文件工具
    Oracle旗下的开源虚拟机
    远程协助工具
    切换网络IP工具
    MySQL(C#的链接姿势)
    大写URL转小写
    一个textview实现文字在图片上面的效果
    通过代码设置textview颜色
  • 原文地址:https://www.cnblogs.com/duole/p/11433907.html
Copyright © 2011-2022 走看看