zoukankan html css js c++ java

scrapy 去重策略修改

1、首先自定义一个‘duplication.py’文件：

class RepeatFilter(object):

    def __init__(self):
        """
        2、对象初始化
        """
        self.visited_set = set()

    @classmethod
    def from_settings(cls, settings):
        """
        1、创建对象
        :param settings:
        :return:
        """
        print('......')
        return cls()

    def request_seen(self, request):
        """
        4、检查是否已经访问过
        :param request:
        :return:
        """
        if request.url in self.visited_set:
            return True
        self.visited_set.add(request.url)
        return False

    def open(self):  # can return deferred
        """
        3、开始爬取
        :return:
        """
        print('open')
        pass

    def close(self, reason):  # can return a deferred
        """
        5、停止爬取
        :param reason:
        :return:
        """
        print('close')
        pass

    def log(self, request, spider):  # log that a request has been filtered
        pass

2、修改settings文件，添加

DUPEFILTER_CLASS = 'day96.duplication.RepeatFilter'

查看全文

相关阅读:
数据分析的5层解读，报表仍是有效的落地实践！
rex 传文件改变用户属主
 rex 通过--parameter1=dbcdefg传参
 rex 给shell 脚本传参
 rex run 传参
 rex ssh公钥认证
 eclipse maven工程中src/main/resources目录下创建的文件夹是包图标的解决方法
 数据分析的三层需求
 com.mysql.jdbc.MysqlDataTruncation: Data truncation: Truncated incorrect DOUBLE value
java.sql.SQLException: Can not issue data manipulation statements with executeQuery()

原文地址：https://www.cnblogs.com/trunkslisa/p/9811456.html