使用NUTCH进行单站点的爬取与检索测试 - 走看看

zoukankan html css js c++ java

使用NUTCH进行单站点的爬取与检索测试

单站点的爬取与检索测试
1, 创建urls文件夹,在文件夹下面创建seed.txt
文件, 在seed.txt文件中输入要爬取的站点例如: www.osu.edu
mkdir -p urls
cd urls
touch seed.txt to create a text file seed.txt under urls/ with the following content (one URL per line for each site you want Nutchto crawl).
2,修改conf/crawl-urlfilter.txt
将MY.DOMAIN.NAME替换为osu.edu
原来为:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
现在为:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*osu.edu/
3, 开始爬取
bin/nutch crawl urls -dir crawldemo -depth 2
4, 配置tomcat,并重新启动,重启的过程不能忘记.
gsli@ubuntu:~/Downloads/apache-tomcat-7.0.10/webapps/nutch-1.2/WEB-INF/classes$
cat nutch-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
                                    <name>searcher.dir</name>
                                      <value>/home/gsli/Downloads/nutch-1.2/crawldemo</value>
                                      <description></description>
</property>
</configuration>
5, 在nutch的搜索页面进行检索
需要在完成第四步的配置,然后重启tomcat才可以进行检索

查看全文

相关阅读:
CDQ分治·学习笔记
 高斯消元板子
 [HEOI2012]朋友圈
 [CTSC2008]祭祀
 Medium | LeetCode 140. 单词拆分 II | 回溯(递归)
Hard | LeetCode 212. 单词搜索 II | 回溯 + 前缀树
 Medium | LeetCode 131. 分割回文串 | 回溯 + 动态规划预处理
 Hard | LeetCode 329. 矩阵中的最长递增路径 | 矩阵+DFS
Hard | LeetCode 76. 最小覆盖子串 | 滑动窗口
 Medium | LeetCode 130. 被围绕的区域 | 矩阵 + DFS

原文地址：https://www.cnblogs.com/afreethinker/p/3159587.html

Copyright © 2011-2022 走看看