zoukankan      html  css  js  c++  java
  • 【crawler】heritrix 3 使用

    https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job

    1、下载heritrix3后解压

    2、命令行到bin目录  >heritrix.cmd –a admin:admin启动

    可以用heritrix --help 查看帮助

    3、打开浏览器 地址  127.0.0.1:8443 即可使用,用户名密码是上面打的admin, admin (以前版本好像是127.0.0.1:8080)

    我在浏览器上不能访问,查看了下异常,发现时安全http什么的,就用地址https://127.0.0.1:8443

    4、在主页,create 一个job

    然后再job中 edit 配置configuration

    在里面的

    1)、metadata.operatorContactUrl=http://www.archive.org   这儿不是seed url

    2)、populate the <prop> element of the longerOverrides bean with the seed values for the crawl。

    这人放的是seed urls

    然后 save

    5、依次build、launch、unpause就开始了

  • 相关阅读:
    django--orm操作
    路由
    django ----视图和路由
    DJango 前三天小结
    JQuery----操作01
    前端---JQuery初识
    前端----jsDOM
    前端---js02
    前端-----js
    面向对象
  • 原文地址:https://www.cnblogs.com/549294286/p/2796367.html
Copyright © 2011-2022 走看看