zoukankan      html  css  js  c++  java
  • nutch+solr整合以及搭载在hadoop上

    nutch+solr整合以及搭载在hadoop上

    官方文档:nutch+hadoop

     

          nutch+solr

     

       版本: 

     

       nutch:nutch1.6

     

       solr:  solr3.6.2

     

       可以参照hadoop1.0.4+nutch1.6“单机”配置

     

        一,ant编译nutch

     

        下载apache-nutch-1.6-src.tar.gz,解压之。

     

       

     

        在nutch1.6/conf下

     

     先修改 nutch-default.xml中http.agent.name和http.robots.agents,value值随意,但是要保持一致

     

     

     

    复制代码
    <name>http.agent.name</name>
      <value>sleeper_qp</value>
      <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
      please set this to a single word uniquely related to your organization.
    
      NOTE: You should also check other related properties:
    
        http.robots.agents
        http.agent.description
        http.agent.url
        http.agent.email
        http.agent.version
    
      and set their values appropriately.
    
      </description>
    </property>
    
    <property>
      <name>http.robots.agents</name>
      <value>sleeper_qp</value>
      <description>The agent strings we'll look for in robots.txt files,
      comma-separated, in decreasing order of precedence. You should
      put the value of http.agent.name as the first agent name, and keep the
      default * at the end of the list. E.g.: BlurflDev,Blurfl,*
      </description>
    </property>
    复制代码

     

     

    然后

     

     

    cp nutch-default.xml nutch-site.xml

     

    在nutch1.6下ant编译

     

     二,测试nutch

     

          启动hadoop,新建,上传urls.txt

     

    复制代码
    ~/hadoop-1.0.4$ bin/start-all.sh 
    ~/hadoop-1.0.4$ touch urls.txt
    
    在urls.txt写入你想爬的网站
    
    ~/hadoop-1.0.4$ bin/hadoop fs -mkdir urls
    ~/hadoop-1.0.4$ bin/hadoop fs -put urls.txt urls/
    复制代码

     

     

     

    添加hadoop的环境变量  

     

    修改~/.bashrc:

     

    export HADOOPHOME=/home/hadoop/hadoop
    export PATH=$PATH:$HADOOPHOME/bin

     

     说明:直接输入hadoop的命令可能会有警告,这是因为hadoop自身也配置了自己的路径(在HADOOP_HOME/bin/hadoop-config.sh)

     

     

        在nutch/runtime/deploy下输入

     

    复制代码
    ~/nutch1.6/runtime/deploy$ bin/nutch crawl urls -dir crawl -depth 3 -topN 3
    解释
    -dir是爬取内容存放的文件 -depth 爬取深度 -topN

    完成后可查看hdfs

    输入hadoop fs -ls查看新的crawl文件夹
    复制代码

     

     

     

    三,安装solr

     

        下载解压solr3.6.2  

     

         修改NUTCH_HOME/conf下的schema.xml

     

    <field name="content" type="text" stored="true" indexed="true"/>

     

         拷贝NUTCH_HOME/conf下的schema.xml到solr/example/solr/conf/下

     

         然后solr/example/solr/conf/下的solrconfig.xml中的str name="df"后的text全部改为content   PS:因为版本的变更,默认值有text该为了content

     

         在{APACHE_SOLR_HOME}/example下输入:

     

         java -jar start.jar

     

     

    四,整合测试

     

         保证正确,重启hadoop(删除前面的hdfs中的crawl),重启solr

     

        在浏览器下查看相关信息:

     

       http://localhost:8983/solr/

     

       http://localhost:50070

     

         在~/nutch1.6/runtime/deploy下输入

     

    bin/nutch crawl urls -solr http://localhost:8983/solr -dir crawl -depth 1 -topN 1 

     

       在正确运行的情况下,可以在http://localhost:8983/solr/admin/   输入你先前爬取网站的相关内容,可以得到一个xml格式的结果

     

      

     

    摘要: hadoop完全分布式环境搭建还算那句话:能看官方文档就尽量看官方文档 hadoop1.0.4完全分布式官方文档先扯点题外话,这个项目是我的比赛项目,可能比较简陋,主要还是想学习关于hadoop和搜索引擎方面的一些知识。这一两个月看了<hadoop实战>,<hadoop权威指南><信息检索导论>等一些书吧,初步了解了一下hadoop和搜索引擎。马上项目就要上交了,所以昨天把两个月的心血给删了,重新来一遍,重装系统,复习一遍之前的吧。好了,正文开始了。环境版本:ubuntu:ubuntu 12.0.4 32bithadoop:hadoop1.0.4jdk:jd阅读全文
    posted @ 2013-05-05 13:54 sleeper_qp 阅读(357) | 评论 (0) 编辑
     
    摘要: ---恢复内容开始---首先声明:在能使用官方文档的情况下完成配置,就不要看网上的博客 另外此篇文章是基于伪分布式hadoop1.0.4 nutch1.6 PS:没有多的机器伤不起啊hadoop的环境配置见Ubuntu12.04下安装hadoop1.0.4nutch1.6:首先说个问题就是nutch1.6源文件中没有runtime这个文件夹,所以需要用到ant 1.安装ant sudo apt-get install ant 2.下载nutch1.6.src 并ant编译 解压,这里假设解压的路径为NUTCH_HOME 进入NUTCH_HOME,输入ant 等...阅读全文
    posted @ 2013-04-18 08:49 sleeper_qp 阅读(815) | 评论 (3) 编辑
     
    摘要: 参考:Hadoop namenode无法启动 Hadoop Namenode不能启动(dfs/name is in an inconsistent state)原因:ubuntu每次重启都会删除/tmp中的信息,而namenode的格式化信息恰好存在/tmp下,从而导致相应信息丢失。解决办法: 1,新建tmp文件目录 sudo mkdir ~/hadoop/hadoop_tmp 2,修改hadoop/conf目录里面的core-site.xml文件 <property> <name>hadoop.tmp.dir</name> <...阅读全文
    posted @ 2013-03-25 16:43 sleeper_qp 阅读(33) | 评论 (0) 编辑
     
    摘要: 首先声明:如果能通过官方文档安装就尽量用官方的方法。环境: linux :ubuntu 12.04 jdk:1.7.0_17jdk安装: 1,在官网下载最新jdk后,解压 tar -zxvf jdk.... 2(可省),把jdk放在/usr下 cp jdk /usr 3,修改/etc/profile :添加export JAVA_HOME=/usr/jdk1.7.0_17 export JRE_HOME=/usr/jdk1.7.0_17/jreexport PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=$CLA...阅读全文
    posted @ 2013-03-23 15:25 sleeper_qp 阅读(815) | 评论 (2) 编辑
     
    摘要: 这是我在ssh localhost的时候出现的问题在网上搜了下解决方法,试了下各种方法包括重装ssh,但是还是不行。最后老老实实看/var/log/auth.log错误显示error: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@error: @ WARNING: UNPROTECTED PRIVATE KEY FILE! @error: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@error: Permissio...阅读全文
    posted @ 2013-03-20 20:59 sleeper_qp 阅读(124) | 评论 (0) 编辑

     

     

     

     

     

    分类: hadoop

  • 相关阅读:
    hdu 1269 迷宫城堡 (并查集)
    hdu 1272 小希的迷宫 (深搜)
    hdu 1026 Ignatius and the Princess I (深搜)
    hdu 1099 Lottery
    hdu 1068 Girls and Boys (二分匹配)
    几个基础数位DP(hdu 2089,hdu 3555,uestc 1307 windy 数)
    hdu 1072 Nightmare (广搜)
    hdu 1398 Square Coins (母函数)
    hdu 1253 胜利大逃亡 (深搜)
    hdu 1115 Lifting the Stone (求重心)
  • 原文地址:https://www.cnblogs.com/Leo_wl/p/3063207.html
Copyright © 2011-2022 走看看