zoukankan      html  css  js  c++  java
  • Ubuntu环境下nutch2.2.1集成HBase0.94.25

    nutch2.2.1集成HBase0.94.25

    (详见:http://duguyiren3476.iteye.com/blog/2085973 )

    1. 修改nutch的hbase配置

    //将自己的hbase配置copy到nutch配置中
    cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/  
    

    2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)

    原因:(我使用的hbase时0.94.25)

    nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90

    如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:

    java.lang.IllegalArgumentException: Not a host:port pair 
    

     如果直接使用hbase0.94操作自己安装的hbase0.94,报错:

    java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V  
    

     解决办法:

    使用0.92.2hbase的jar文件

    3. 抓取

      (1)设置抓取地址

    cd runtime/local/  
    mkdir -p urls  
    sudo gedit urls/seed.txt   
    

     在seed中填入你要抓取的地址:比如:http://www.apache.org/

      (2)将urls放到hdfs系统中

    hadoop fs -copyFromLocal urls /home/hadoop/urls  
    

       (3)运行nutch,并把结果放到hbase

    nutch inject /home/hadoop/urls
    

       (4)查看hbase

    hbase shell
    
    //进入shell后
    list
    

     如果出现 “webpage” 则成功。

      (5)

    nutch  generate -topN 3  
    nutch fetch -all  
    nutch parse -all  
    nutch updatedb  
    

       (6)进入hbase查询

  • 相关阅读:
    python yaml文件数据按原有的数据顺序dump
    HTMLTestRunner
    os.path获取当前路径及父路径
    update 字符串拼接
    VSCode 快速生成.vue基本模板、发送http请求模板
    Vue取消eslint语法限制
    node-sass安装失败解决方法
    docker 创建mysql和redis
    阿里云镜像加速器地址
    .net core + xunit 集成测试
  • 原文地址:https://www.cnblogs.com/xxx0624/p/4176199.html
Copyright © 2011-2022 走看看