zoukankan      html  css  js  c++  java
  • 【转】如何在eclipse下配置Heritrix

    如何配置在eclipse下配置Heritrix

    在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如http://extjs2.javaeye.com/blog/699751
    不过这里对配置有一些进一步的说明。

    Eclipse 配置 Heritrix 1.14.4的配置过程如下:

    1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载
    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows)

    2. 在Eclipse 中创建一个java project的工程(可以命名为Heritrix)

    3. 将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。

    4. 将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。

    5. 将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。

    6. 将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。

    7. 将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
    如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。

    Java代码 :/**   * @throws IOException   * @return Returns the directory under which reside the WAR files   * we're to load into the servlet container.   */     public static File getWarsdir()  throws IOException {         return getSubDir("webapps");     }    

    /** * @throws IOException * @return Returns the directory under which reside the WAR files * we're to load into the servlet container. */ public static File getWarsdir() throws IOException { return getSubDir("webapps"); }

    8. 配置文件进行修改,找到conf下heritrix.properties文件

    Java代码 :  //设置版本    heritrix.version = 1.14.4   

    //设置用户密码 heritrix.cmdline.admin = admin:admin

    //设置端口 heritrix.cmdline.port = 8080

    9. 对工程进行jar包引入,将lib下面所有的jar包引入工程。

    10.Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection,sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,把对保护使用warning就可以了。Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning

    11. 添加配置文件夹。如果你运行Heritrix时,在配置页面中没有可选项,这一步可以解决问题。在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去。

    点击Run 开始运行

    java代码 :

    16:17:09.500 EVENT  Starting Jetty/4.2.23
    16:17:09.843 EVENT  Started WebApplicationContext[/,Heritrix Console]
    16:17:09.968 EVENT  Started SocketListener on 127.0.0.1:8080
    16:17:09.968 EVENT  Started
    Heritrix version: 1.14.4

    http://www.cnblogs.com/sl-shilong/articles/2829411.html

    遇见问题及修复:

    heritrix.java 代码文件中语句:“import sun.net.www.protocol.file.FileURLConnection;”

    报错如下:

     “The type FileURLConnection is not accessible due to restriction on required library C:Programe FilesJavaJre6lib t.jar”

    请问如何解决?

    补充一下Heritirx 的版本是1.14.4

    编程小强 回答于 2012-03-07 11:31

    这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。(OK)

    或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。

  • 相关阅读:
    hdu_5855_Less Time, More profit(二分+最大权闭合图)
    hdu_5832_A water problem(模拟)
    poj_3261_Milk Patterns(后缀数组)
    [bzoj1072][SCOI2007]排列(状态压缩DP)
    [bzoj1597][USACO2008]土地购买(DP斜率优化/四边形优化)
    [bzoj1293][SCOI2009]生日礼物(单调队列)
    [bzoj 2463]谁能赢呢?(博弈论)
    矩阵快速幂优化递推总结
    [bzoj1563][NOI2009]诗人小G(决策单调性优化)
    [bzoj1821][JSOI2010]部落划分(贪心)
  • 原文地址:https://www.cnblogs.com/myitroad/p/4841980.html
Copyright © 2011-2022 走看看