zoukankan      html  css  js  c++  java
  • java 爬虫 WebMagic(四)-Scheduler

    Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能:

    1. 对待抓取的URL队列进行管理。
    2. 对已抓取的URL进行去重。

    一般使用不需要自定义,WebMagic默认实现了QueueScheduler。

    WebMagic内置了几个常用的Scheduler。

    所有默认的Scheduler都默认实现了 DuplicateRemover接口,去url进行去重。

    如果想要关闭去重的功能能,可以自己实现DuplicateRemover接口,在isDuplicate()方法中返回fasle就行了

    public class DonothingDuplicateRemover implements DuplicateRemover {
        @Override
        public boolean isDuplicate(Request request, Task task) {
            return false;
        }
    
        @Override
        public void resetDuplicateCheck(Task task) {
    
        }
    
        @Override
        public int getTotalRequestsCount(Task task) {
            return 0;
        }
    }
  • 相关阅读:
    video标签
    正则表达式
    BOM和DOM
    css样式属性
    js简介
    格式与布局
    CSS样式表
    表单
    redis学习心得之三-【java操作redis】
    redis学习心得之二【redis主从配置】
  • 原文地址:https://www.cnblogs.com/yhood/p/11599121.html
Copyright © 2011-2022 走看看