windows下安装nutch2.1

zoukankan html css js c++ java

windows下安装nutch2.1
1.准备（一下版本为本人使用版本）
- 下载JDK1.7，建议下载安装版jdk-7u15-windows-x64.exe；（安装，并配置JAVA_HOME，PATH，CLASSPATH路径）
- 下载cygwin，下载安装版cygwin-setup.exe；
- 下载tomcat，apache-tomcat-7.0.37.exe；
- 下载nutch，apache-nutch-1.2-bin.zip；
2.cygmin安装与配置

双击cygwin-setup.exe安装，一般都选默认即可

注意：选择下载镜像时一定避免选择163.com的，因为这个是汉化的，以后会遇到兼容问题，要选美国服务器上的

下一步.....下一步....我的安装位置是D:\tool\cygwin和D:\tool\cygwinPackage

最后桌面上出现图标，能运行如下即可：

3.安装nutch

3.1.解压缩apache-nutch-1.2-bin.zip到D:\tool\cygwin\home下

3.2.打开cygwin，在cygwin环境下进入nutch-1.2目录下（cd /home/nutch-1.2），使用命令 bin/nutch进行测试，正常的情况下出现的结果是，说明nutch可运行了：

4. 配置nutch

4.1.在D:\tool\cygwin\home\nutch-1.2\下新建一个目录urls，在urls下建一个url.txt文件用以保存需要搜索的网站，在文件中输入http://www.163.com，在D:\tool\cygwin\home\nutch-1.2下新建一个目录logs，在logs目录下新建log1.log文件用以保存日志文件

4.2.打开D:\tool\cygwin\home\nutch-1.2\conf\nutch-site.xml，按以下示例输入

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>http.agent.name</name>
<value>mynutch</value>
<description>test
</description>
</property>
<property>
<name>http.agent.description</name>
<value>spider</value>
<description> spider
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.xxx.com </value>
<description>http://www.xxx.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>md.peter@163.com
</description>
</property>
</configuration>

4.3.打开文件D:\tool\cygwin\home\nutch-1.2\conf\crawl-urlfilter.txt文件，把MY.DOMAIN.NAME字符替换为myurl内的域名（比如我改成了“+^http://([a-z0-9]*/.)*163.com/”，其实更简单点，直接删除MY.DOMAIN.NAME这几个字就可以了，也就是说，只保存+^http://([a-z0-9]*/.)*这几个字就可以了，表示所有http的网站都同意爬行）。

4.4.运行爬虫,在Cygwin输入以下命令：

          bin/nutch crawl urls/url.txt -dir crawled -depth 4 -threads 5 -topN 1000 >&logs/log1.log

         这里-dir表示存储的目录，-depth表示网址爬的深度，最后是指明日志文件

         运行结束后，你可以打开日志文件查看爬虫运行的详细过程,以及存储目录中的文件：

5.tomcat上运行nutch

5.1.把nutch-1.2.war拷贝到Tomcat//webapps/下面，重启tomcat，这步是为了使tomcat展开nutch-1.2.war，然后修改webapps/ nutch-1.2/WEB-INF/classes/nutch-site.xml文件如下：

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>

<property>

<name>searcher.dir</name>

<value>c:/cygwin/home/nutch-1.2/crawled</value>

</property>

</configuration>

5.2.为了支持中文的搜索，修改Tomcat/conf/server.xml。找到对应的地方修改成

connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

5.3.在浏览器中输入http://localhost:8080/nutch-1.2/
查看全文

相关阅读:
ExtJS4学习笔记二－－表单控件相关
 Js中replace()的用法
 浅析轮询(Polling)和推送(LongPolling)服务
 ExtJS4学习笔记五－－面板使用
 ExtJS4学习笔记四－－图片上传
 spring MVC
ExtJS4学习笔记三－－远程访问数据源示例
 Struts 2
ExtJs4学习笔记一－－基础知识
 URL编码规则

原文地址：https://www.cnblogs.com/fengfengqingqingyangyang/p/2970044.html