Nutch的安装和配置

zoukankan html css js c++ java

Nutch的安装和配置
Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包，也可以使用源代码安装。这里介绍用二进制包安装。

1. 下载apache-nutch-1.12-bin.tar.gz，并且解压，解压后会形成一个apache-nutch-1.12文件夹；

2. 编辑conf/nutch-site.xml文件：
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  <configuration> <property> <name>http.agent.name</name> <value>My Spider</value> </property> <property> <name>plungin.folders</name> <value>/opt/apache-nutch-1.12/plugins</value> </property> </configuration>
3. 进入apache-nutch-1.12文件夹，输入命令：
mkdir -p ./urls cd urls touch seed.txt
编辑seed.txt文件，加上你想要抓取的网站，如：
http://xxxx.com/
编辑conf/regex-urlfilter.txt文件，加上一个正则表达式：
# accept anything else +^http://([a-z0-9]*.)*xxxx.com/
这样，就会抓取http://xxxx.com/这个网站的所有网页。

4. 新建一个crawls目录，运行：
bin/crawl urls/seed.txt crawls 10
这样就可以进行抓取网页了，其中crawls是抓取数据存放的目录，10是轮数。

5. 抓取结束以后，会在crawls目录下产生三个文件夹：crawldb、linkdb、segments，使用下面的命令将二进制文件导出为文本文件：
bin/nutch readseg -dump ./crawls/segments/20170328163131 ./crawls/segments/2017032816313_dump
然后就可以用gedit打开文本文件查看抓取结果了。
查看全文

相关阅读:
模拟黑客入侵,恶搞小伙伴的利器
 牛客网算法竞赛难题
 ybt ——1346【例4-7】亲戚
 FBI树
 noi2020第二题
 noi2020第一题
 Happiness
YiJuWuLiaoDeHua
挂掉了一个u盘
 NOIp2020

原文地址：https://www.cnblogs.com/mstk/p/6636267.html