zoukankan      html  css  js  c++  java
  • scrapy 断点续爬

    第一步:安装berkeleydb数据库

    第二部:pip install bsddb3

    第三部:pip install scrapy-deltafetch

    第四部:

    settings.py设置

        SPIDER_MIDDLEWARES = {  ‘scrapy_deltafetch.DeltaFetch’: 100  }  

        DELTAFETCH_ENABLED = True

    DELTAFETCH_ENABLED = True  #是否启用该中间件 ,我们在settings.py文件中进行配置

    DELTAFETCH_DIR = '路径地址'  #存储URL的路径

    DELTAFETCH_RESET = 1 #是否清空数据库 或者使用 scrapy crawl example -a deltafetch_reset = 1

    重复爬取须重置缓存

    命令:scrapy crawl meishi -a deltafetch_reset=1

  • 相关阅读:
    HDU 1452
    POJ 1845
    POJ 2992
    POJ 3358
    POJ 3696
    POJ 3090
    POJ 2478
    2016大连网络赛 Football Games
    2016大连网络赛 Function
    2016大连网络赛 Sparse Graph
  • 原文地址:https://www.cnblogs.com/pxfb/p/10373586.html
Copyright © 2011-2022 走看看