zoukankan      html  css  js  c++  java
  • scrapy 增量采集

    在做新闻或者其它文章采集到时候,只想采集最新发布的信息,之前采集过得就不要再采集了,从而达到增量采集到需求

    scrapy-deltafetch,是一个用于解决爬虫去重问题的第三方插件。

    scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,从而实现爬虫的增量爬取。

     

    安装 scrapy-deltafetch需要安装Berkeley DB ,scrapy-deltafetch 会对每个采集源单独建立一个数据库文件来记录已采集过的记录,如下图,会在爬虫项目下建立一个.scrapy的文件夹

    安装 Berkeley DB

    # cd /opt

    # wget http://download.oracle.com/berkeley-db/db-4.7.25.NC.tar.gz

    # tar zxvf db-4.7.25.NC.tar.gz # cd build_unix

    # ../dist/configure

    # make&&make install

    安装 pip install bsddb3 用来连接 Berkeley DB

    pip install scrapy-deltafetch

    运行爬虫后如果已经采集过的数据会提示,如下图



  • 相关阅读:
    常用内建函数
    函数作用域
    异常处理语句
    迭代器---待延申扩展
    流程控制语句
    字典
    集合
    数据类型的可变与不可变
    Openstack keystone组件详解
    云计算openstack介绍(001)
  • 原文地址:https://www.cnblogs.com/fly-kaka/p/11193277.html
Copyright © 2011-2022 走看看