zoukankan      html  css  js  c++  java
  • Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

    本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/629891

    欢迎加入Heritrix群(QQ): 109148319 , 10447185(已满)  , Lucene/Solr群(QQ) :  118972724

      Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.

      下面就列出各个参数、说明和理想值

      序号 配置名 理想值 说明

      1   0   0   最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制

      2   0   0   最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制

      3   0   3   抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制   

      4   3   50   抓取的线程数,表示有多少个线程去抓取,一般50足够了

      5    4.0  1.0   如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值

      6   20000 2000   队列的最大延迟时间,单位为毫秒

      7   2000     0      队列的最小延迟时间,单位为毫秒

      8     30      5      URL抓取失败可以重试的次数,重试次数越少越好

      9   0   0  总的 抓取速度(KB/秒)限制,0表示没有限制

      10   0   0    每个域名抓取速度(KB/S)限制,0表示没有限制

      11    50    200    准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取

      12  21600  0      DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS

      13  86400  0      爬虫协议(robots.txt)有效时间,超过这个时间则要重新去读取robots.txt

  • 相关阅读:
    TAOCP读书笔记——Search(1)
    JAVA进程间通信
    C++ Primer 阅读总结 (1)
    初来乍到
    [C#]手把手教你打造Socket的TCP通讯连接(二)
    [C#]手把手教你打造Socket的TCP通讯连接(三)
    数字ToString作为货币显示并且带小数
    [C#]手把手教你打造Socket的TCP通讯连接(一)
    [C#]手把手教你打造Socket的TCP通讯连接(四)
    WPF中使用ItemTemplate把所有Item都控制为指定大小
  • 原文地址:https://www.cnblogs.com/loveyakamoz/p/2264527.html
Copyright © 2011-2022 走看看