nutch 1.4后参考如下:
http://peigang.iteye.com/blog/1563288
1. 前提
安装cygwin完整版,SVN
2. 下载
通过SVN下载的方法:
地址:http://svn.apache.org/repos/asf/nutch/branches/branch-1.5
http://archive.apache.org/dist/nutch/
下载,解压:

3. 导入eclipse 。
方法一:
从bin与src中共同生成项目
[代码看起来整齐,但是无法ant+build.xml编译]
参考源:http://blog.csdn.net/neo_2011/article/details/6943622
步骤:
1) 在Eclipse新建一个Java Project,nutch-1.2;
2) 将apache-nutch-1.2-src.zip源码包内/src/java文件夹下的内容复制到新建工程目录下的src文件夹;
3) 将apache-nutch-1.2-bin.zip包中nutch-1.2目录下的lib、plugins、conf三个文件夹复制到新建工程的根目录下(与src同级);
4) 右键工程properties,切换到"Libraries"选择"Add ClassFolder..."按钮,从列表中选择"conf",将 conf加入到classpath中;
5) 右键工程properties,切换到"Libraries"选择"Add ExternalJARs "按钮,将lib文件夹中的所有jar加入到工程中。这两步完成后看代码应该不会有编译错误了。
方法二:
从apache-nutch-1.2-src生成项目
参考源:http://blog.csdn.net/chlstar/article/details/7220649
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
步骤:
1) File-----new----Java project------create project from existing source---
D:\TDTCrawler\download\apache-nutch-1.2-src\apache-nutch-1.2
2) Next
3) 将conf目录添加到classpath(右击项目选择properties,然后选择JavaBuild Path,然后在右边框中选择Libraries,单击AddClass Folder...,选择conf目录)
4) 选择Orderand Export,找到刚才导入的conf目录,把它移动到顶部
5) 单击"Source"设置defaultoutput folder 为"Nutch/bin/tmp_build".
6) 修改nutch-site.xml.template为nutch-site.xml
<property>
<name>http.agent.name</name>
<value>test</value>
</property>
7) crawl-urlfilter.txt.template改为crawl-urlfilter.txt
#accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
#skip everything else
-.
改为:
#accept hosts in MY.DOMAIN.NAME
+.
#skip everything else
-.
8) 修改conf目录下的nutch-default.xml
将"plugin.folders"属性的值改为"./src/plugin"(如果不改会报错)
crawl urls -dir crawl -depth 2 -threads 3 -topN 10
以上两种方法,在jdk1.7.0_06,europa测试通过
NUTCH的编译
对象:方法二中所生成的项目
参考网址:http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html
1) 进入nutch-1.2-src的根目录下
2) Nutch-default.xml中 <name>plugin.folders</name> <value>plugins</value>为根目录下的plugins
3) Ant 生成build\nutch-1.2.job Ant jar 生成build\nutch-1.2.jar
4) 用这两个文件覆盖D:\TDTCrawler\download\apache-nutch-1.2-bin\nutch-1.2 bin文件下相同的文件
5) 应该把src下面的lib覆盖bin的lib
6) 将src下的crawl-urlfilter.txt,nutch-site.xml,nutch-default.xml覆盖bin下相应文件
7) 将ant生成的build文件夹下的parse-html 覆盖bin下相应的文件 (与这个类似 : http://www.cnblogs.com/i80386/p/3956766.html)
修改了crawl类中的
for (int i = 0; i < 100; i++) {
System.out.println("tianditu ltd");
}
编译的代码被打印出来
编译通过
4.方法二 Ant build.xml注意事项
1. Ant 生成nutch-1.2.job
包引用异常,4 应该把src下面的lib覆盖bin的lib
2. Ant jar 生成nutch-1.2.jar
3. 将src下的crawl-urlfilter.txt,nutch-site.xml,nutch-default.xml覆盖bin下相应文件
4. 将ant生成的build文件夹下的parse-html 覆盖bin下相应的文件
5. 修改site-default.xml下plugin.folders 属性值由 ./src/plugin 改为./plugins
如果不修改将报 加载插件失败异常 21 相同的