zoukankan      html  css  js  c++  java
  • Nutch1.7学习笔记:基本环境搭建及使用

    Nutch1.7学习笔记:基本环境搭建及使用

    作者:雨水,时间:2013-10-31博客地址:http://blog.csdn.net/gobitan

    说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。

    环境准备

    1. 一台Ubuntu Linux服务器,可以装在VMware虚拟机中。
    2. 下载Nutch1.7版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.7目录下的apache-nutch-1.7-bin.zip.
    3. 下载Solr3.6版本的二进制包,地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/,选择一个站点进入后,下载3.6.2目录下的apache-solr-3.6.2.zip .

    安装配置Nutch

    将apache-solr-3.6.2.zip解压,然后执行如下命令:

    $mv apache-nutch-1.7nutch

    $cd nutch

    $bin/nutch

    上面两行命令是进入解压后的目录,然后执行nutch命令。如果出现” Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看bin/nutch是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

    2. 配置JAVA_HOME环境变量

    执行” echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:

    $cd

    $vi .bashrc

    然后将如下文本加入到.bashrc的末尾,注意:需将JAVA_HOME的值替换为你的Javajdk的路径。如果没有安装JDK,建议安装OracleJDK.

    export JAVA_HOME=/home/dennis/jdk1.6.0_37

    然后执行如下命令刷新当前的环境变量:

    $. .bashrc

    3. 配置Nutch

    (1)配置conf/nutch-default.xml

    $cd nutch

    $ vi conf/nutch-default.xml

    将http.agent.name属性的值改为如下:

    <property>

     <name>http.agent.name</name>

     <value>My Nutch Spider</value>

    </property>

     (2) 创建urls相关配置:

    $ mkdir urls

    $cd urls

    $ touch seed.txt

    然后将你希望爬的网址放入seed.txt中,这里以” http://nutch.apache.org”为例。

    (3) 编辑conf/regex-urlfilter.txt将原有的

    # accept anything else

    +.

    替换为你以正则表达式匹配的你希望爬的地址。例如:

    +^http://([a-z0-9]*.)*nutch.apache.org/

    这是用正则表达式来限制爬虫的范围仅限于nutch.apache.org这个域。

    运行Nutch:

    $ bin/nutch crawl urls -dir crawl -depth 3 -topN5

    运行上述命令执行爬虫。

    Solr集成:

    1. 安装:将apache-solr-3.6.2.zip解压,然后执行如下命令:

    $mv apache-solr-3.6.2 solr

    $cd solr/example

    $ java -jar start.jar

    2. 验证:分别访问如下两个链接,需都能正常访问才可。

    http://localhost:8983/solr/admin/

    http://localhost:8983/solr/admin/stats.jsp

    3. 与Nutch集成:

    (1) 拷贝schema.xml配置文件

    nutch/conf/schema-solr.xml拷贝至solr/example/solr/conf/下,并重命名为schema.xml(覆盖原有的)。

    (2) 执行”java -jar start.jar”重启Solr,需先进入solr/example目录。

    (3) 执行Solr索引命令,如下:

    bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

    注意:执行时需先进入nutch目录。

    (4) 访问http://192.168.128.129:8983/solr/admin/测试,可以在Query String中输入” GettingStarted”进行查询,可以得到两个结果。

    还可以集成中文分词,以便更好地支持中文。

    集成中文分词相关配置如下:

     

    schema.xml

    <fieldType name="text"class="solr.TextField">

                   <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

           </fieldType>

    solrconfig.xml

    <lib dir="../../contrib/ik/lib"regex=".*.jar" />

    同时需下载对应的jar包放至相应的目录。

    参考资料:

    1. http://wiki.apache.org/nutch/NutchTutorial

  • 相关阅读:
    在测试自定义starter时,若出现无法找到helloservice的Bean的解决方法
    springboot项目启动后tomcat服务器自动关闭 解决方法
    spring-ioc注解-理解2 零配置文件
    spring-ioc的注解 理解-1
    spring-ioc心得
    springboot的自动配置
    容器关系
    编写程序要做到结构、层次清晰明朗
    maven依赖的jar下载(在指定的仓库中)
    思考:开发的环境问题是一个大问题,也是首先要解决的问题,然后才能顺畅进入开发工作?
  • 原文地址:https://www.cnblogs.com/pangblog/p/3402567.html
Copyright © 2011-2022 走看看