zoukankan      html  css  js  c++  java
  • Sqoop的导入及可能遇到的问题

    导入数据

    原文链接:https://blog.csdn.net/qichangjian/java/article/details/88116434

    导入到 hdfs例子

    sqoop import 
    #--connect jdbc:mysql://hadoop102:3306/$db_name
    --connect "jdbc:oracle:thin:@ip:1521:服务名"
    --username "xxx"
    --password "xxx"
    --target-dir "$db_dir"
    --delete-target-dir
    --num-mappers 1
    --fields-terminated-by "\t"
    --query "$sql"
     
    参数说明
    --append

    数据追加到hdfs已经存在的数据组中。使用该参数,sqoop将把数据先导入到一个临时目录中,避免文件重名。

    --as-avrodatafile 将数据导入到Avro数据文件中  
    --as-sequencefile 将数据导入到sequence文件中
    --as-textfile

    将数据导入到普通文本文件中。最终可以在hive中通过sql语句查询出结果。

    --enclosed-by '"' 字段值前后加上指定字符,比如双引号
    --columns<col,col> 指定导入的字段,格式如:--columns id,username
    -m,--num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数
    --query,-e <sql>

    sql语句查询结果集。该参数使用时必须指定–target-dir–hive-table,必须在where条件中需要包含 $CONDITIONS。

     --boundary-query <statement>

    边界查询。在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据。

    格式如:--boundary-query 'select id,no from t where id = 3',表示导入的数据为id=3的记录,或者 select min(<split-by>), max(<split-by>) from <table name>,注意查询的字段中不能有数据类型为字符串的字段,否则会报错

    --table <table-name> 关系数据库表名,数据从该表中获取
    --delete-target-dir 如果目标目录存在,先删除目录
    --target-dir <dir> 指定hdfs路径
    --fields-terminated-by " "  每个字段是以什么符号作为结束的,默认是逗号

    --null-string '\N'

    --null-non-string '\N'

    为了避免空值时,没有数据
    --where 查询条件,示例:--where "id = 2"
    -z,--compress 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件
    --compression-codec Hadoop压缩编码,默认是gzip
     --direct

     直接导入模式,使用的是关系数据库自带的导入导出工具。这样导入会更快

    支持的数据库类型与版本:
    * myslq 5.0 以上
    * oracle 10.2.0 以上

     --direct-split-size  在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。
    --split-by <column> 表的列名,用来切分工作单元,一般后面跟主键ID
    --inline-lob-limit 设定大对象数据类型的最大值
       

    导入Hive

    sqoop import 
    --connect "jdbc:oracle:thin:@ip:1521:服务名" 
    --username "xx" 
    --password "xx" 
    --query "$sql" 
    --hive-table test.view_trjn 
    --hive-drop-import-delims 
    --target-dir "$db_dir" 
    --fields-terminated-by "\t" 
    --hive-overwrite 
    --null-string '\N' 
    --null-non-string '\N' --hive-import
    参数说明
    --hive-overwrite 覆盖掉在hive表中已经存在的数据
    --hive-table 后面接要创建的hive表  
    –hive-partition-value “2018-08-08” 指定分区表的值
    –hive-partition-key “dt” 指定分区表的字段
    --hive-delims-replacement“ ” 导入到Hive时,用用户定义的字符串替换字符串字段中的 、 和1                                                                                                                                                          
    --hive-drop-import-delims 从字符串字段中删除 、 和1
    --hive-import 
    指定是导入 Hive

    sqoop数据导出

    参数 说明
    --direct  快速导入
    --export-dir  HDFS 导出数据的目录 
    -m,--num-mappers  都少个 map 线程 
    --table  导出哪个表
    --call  存储过程
    --update-key  通过哪个字段来判断更新
    --update-mode  插入模式,默认是只更新,可以设置为 allowinsert.
    --input-null-string   字符类型 null 处理
    --input-null-non-string  非字符类型 null 处理
    --staging-table  临时表
    --clear-staging-table  清空临时表
    --batch  批量模式
       

    HDFS —> MySQL

    sqoop export 
    --connect jdbc:mysql://hadoop01:3306/test 
    --username hadoop 
    --password root 
    --table book 
    --export-dir /sqoopdata 
    --fields-terminated-by ','

    hive----> MySQL

    sqoop export 
    --connect jdbc:mysql://hadoop01:3306/test 
    --username hadoop 
    --password root 
    --table book 
    --export-dir /user/hive/warehouse/uv/dt=2011-08-03 
    --input-fileds-terminated-by '	

    hbase---->MySQL
    默认的没有命令直接将hbase中的数据导入到MySQL,因为在hbase中的表数据量通常比较大,如果一次性导入到MySQL,可能导致MySQL直接崩溃。
    但是可以用别的办法进行导入:
    将 Hbase 数据,扁平化成 HDFS 文件,然后再由 sqoop 导入 将 Hbase 数据导入 Hive 表中,然后再导入 mysql 直接使用 Hbase 的 Java API 读取表数据,直接向 mysql 导入,不需要使用 sqoop

    FAQ

    在使用sqoop从oracle导数到hive,报错:sqoop could not load db driver class:oracle.jdbc.OracleDriver

    在安装sqoop server的节点上放oracle的驱动包

    /opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar

    并且修改权限为777

    Sqoop将Oracle中的数据导入到Hive异常如下

    20/05/25 11:30:55 INFO mapreduce.Job:  map 0% reduce 0%
    20/05/25 11:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED
    Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
        at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76)
        at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)
    Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
        at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
        ... 9 more
    Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
        at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458)
        at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
        at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
        at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:32)
        at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:521)
        at java.sql.DriverManager.getConnection(DriverManager.java:664)
        at java.sql.DriverManager.getConnection(DriverManager.java:247)
        at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:302)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:213)
        ... 10 more
    Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
        at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:392)
        at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:434)
        at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:687)
        at oracle.net.ns.NSProtocol.connect(NSProtocol.java:247)
        at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1102)
        at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320)
        ... 18 more
    Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable)
        at java.net.PlainSocketImpl.socketConnect(Native Method)
        at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)

    也可能是下面的错误
    ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 错误: Connection reset
    java.sql.SQLRecoverableException: IO 错误: Connection reset
    at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)
    at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
    at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
    at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
    Caused by: java.net.SocketException: Connection reset
    at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
    at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
    ... 25 more
    18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter
    at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1664)

    进入 $JAVA_HOME/jre/lib/security目录下的java.security文件 

    cd $JAVA_HOME/jre/lib/security

    vim java.security
    修改securerandom.source=file:/dev/../dev/urandom,如果这个参数不管用改为securerandom.source=file:///dev/urandom 或 手动添加参数-D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

    如果依旧有问题进行以下操作

    export HADOOP_OPTS=-Djava.security.egd=file:/dev/../dev/urandom

    sqoop import -D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

    先在命令行或脚本设置HADOOP_OPTS,然后再执行sqoop import就可以了,最好加上mapred.child.java.opts参数,并且在第二次导入的时候一定要加上--hive-overwrite参数。
    注:有时候-m需要设置成1才可以。刚开始我将-m设置成2报错,我设置成1就可以了。

    在脚本中export…和sqoop import -D mapred.child.java.opts都是不能少的。

    This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.

    参考:http://www.hohode.com/2018/09/28/Sqoop-Oracle-java-sql-SQLRecoverableException-IO-%E9%94%99%E8%AF%AF-Connection-reset/

  • 相关阅读:
    Mysql字符串字段判断是否包含某个字符串的方法
    linux下安装jenkins实现自动化部署
    Python:webshell 跳板机审计服务器
    Yum:更换aliyun的yum源
    Python:安装3.6
    Mysql:零散记录
    Kvm:通过 libvirt 远程管理虚拟机
    Python:socket实现ftp程序
    Python:用户自定义异常
    Kvm:启动报错:error: internal error: process exited while connecting to monitor: 2018-11-12T01:47:14.993371Z qemu-system-x86_64: cannot set up guest memory 'pc.ram': Cannot allocate memory
  • 原文地址:https://www.cnblogs.com/mergy/p/12932398.html
Copyright © 2011-2022 走看看