zoukankan      html  css  js  c++  java
  • 【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自己主动生成组合行键

    目的:
    使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键

    环境:
    Hadoop2.2.0
    Hbase0.96
    sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
    Oracle11g
    jdk1.7
    Ubuntu14 Server

    这里关于环境吐槽一句:
    最新版本号的Sqoop1.99.3功能太弱。仅仅支持导入数据到HDFS,没有别的不论什么选项,太土了。(如有不允许见欢迎讨论给出解决方式)

    命令:
    sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table  CMS_NEWS_0625   --hbase-create-table --hbase-table 147patents --column-family patentinfo --split-by CREATE_TIME --hbase-row-key "CREATE_TIME,PUBLISH_TIME,ID,TITLE"

    数据源相关參数说明:
    --connect:数据库连接串
    --username:用户名
    --P:交互式输入password
    --table:表名
    -m:并行运行sqoop导入程序的map task的数量,在不指定的情况下默认启动4个map
    --split-by:并行导入过程中。各个map task依据哪个字段来划分数据段,该參数最好指定一个能相对均匀划分数据的字段,比方创建时间、递增的ID

    HBase相关參数说明:
    --hbase-table:hbase中接收数据的表名
    --hbase-create-table:假设指定的接收数据表在hbase中不存在,则新建表
    --column-family:列族名称,全部源表的字段都进入该列族
    --hbase-row-key:假设不指定则採用源表的key作为hbase的row key。能够指定一个字段作为row key。或者指定组合行键。当指定组合行键时,用双引號包括多个字段,各字段用逗号分隔
    -D sqoop.hbase.add.row.key :是否将rowkey相关字段写入列族中,默觉得false,默认情况下你将在列族中看不到不论什么row key中的字段。

    注意。该參数必须放在import之后。




    注意几个坑:
    1.Oracle的表名必须大写(--table CMS_NEWS_0625 。
    2.用户名必须大写字母( --username ZHAOBIAO);
    3.组合行键參数中的字段名都必须大写(--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE");
    4.作为组合行键的几个字段都不能有null值,否则会报错,请运行该语句前先确认;
    5.sqoop不会导入值为null的字段。

    异常解决
    过程中遇到报错:
    Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME
            at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125)
            at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142)
            at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128)
            at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92)
            at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634)
            at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)
            at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)
            at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38)
            at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31)
            at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
            at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
            at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)
            at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
            at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
            at java.security.AccessController.doPrivileged(Native Method)
            at javax.security.auth.Subject.doAs(Subject.java:415)
            at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
            at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

    原因1:
    --hbase-row-key "create_time,publish_time,operate_time,title"
    字段名小写了,须要将其改动为大写
    --hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"

    原因2:
    该字段在原表中的确存在Null值。


    补充:
            Map-Reduce Framework
                    Map input records=639529
                    Map output records=639529

    166251 row(s) in 1006.7010 seconds




  • 相关阅读:
    IIS7.5 HTTP 错误 500 调用loadlibraryex失败的解决方法
    VB6.0 excel 导入和导出
    SQL 实现 成绩表形式的转换
    计算月初和月末,年初和年末的日期
    一篇文章学LINQ(原创)
    浙江省仙居县发现罕见丹霞地貌大型“天坑”
    浙江省仙居县发现特大型丹霞地貌洞穴
    EFUpdate
    163邮件出错:不允许使用邮箱名称。 服务器响应为: authentication is required,smtp7,C8CowEDpS0+Uke9VvSmXBg--.546S2 1441763733
    vmware 安装dos注意
  • 原文地址:https://www.cnblogs.com/jzssuanfa/p/6914158.html
Copyright © 2011-2022 走看看