zoukankan html css js c++ java

Sqoop的导入及可能遇到的问题

导入数据

原文链接：https://blog.csdn.net/qichangjian/java/article/details/88116434

导入到 hdfs例子

sqoop import 
#--connect jdbc:mysql://hadoop102:3306/$db_name 
--connect "jdbc:oracle:thin:@ip:1521:服务名" 
--username "xxx" 
--password "xxx" 
--target-dir "$db_dir" 
--delete-target-dir 
--num-mappers 1 
--fields-terminated-by "\t" 
--query "$sql"

参数	说明
`--append`	数据追加到hdfs已经存在的数据组中。使用该参数，sqoop将把数据先导入到一个临时目录中，避免文件重名。
`--as-avrodatafile`	将数据导入到Avro数据文件中
`--as-sequencefile`	将数据导入到sequence文件中
`--as-textfile`	将数据导入到普通文本文件中。最终可以在hive中通过sql语句查询出结果。
`--enclosed-by '"'`	字段值前后加上指定字符，比如双引号
`--columns<col,col>`	指定导入的字段，格式如：`--columns id,username`
`-m,--num-mappers`	启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数
`--query，-e <sql>`	sql语句查询结果集。该参数使用时必须指定`–target-dir`、`–hive-table`，必须在where条件中需要包含 `$CONDITIONS。`
`--boundary-query <statement>`	边界查询。在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据。格式如：`--boundary-query 'select id,no from t where id = 3'`，表示导入的数据为id=3的记录，或者 `select min(<split-by>), max(<split-by>) from <table name>`，注意查询的字段中不能有数据类型为字符串的字段，否则会报错
`--table <table-name>`	关系数据库表名，数据从该表中获取
`--delete-target-dir`	如果目标目录存在，先删除目录
`--target-dir <dir>`	指定hdfs路径
--fields-terminated-by " "	每个字段是以什么符号作为结束的，默认是逗号
`--null-string '\N'` `--null-non-string '\N'`	`为了避免空值时，没有数据`
`--where`	查询条件，示例：`--where "id = 2"`
`-z,--compress`	压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件
`--compression-codec`	Hadoop压缩编码，默认是gzip
`--direct`	直接导入模式，使用的是关系数据库自带的导入导出工具。这样导入会更快支持的数据库类型与版本： * myslq 5.0 以上 * oracle 10.2.0 以上
`--direct-split-size`	在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从PostgreSQL导入数据的时候，可以将一个到达设定大小的文件分为几个独立的文件。
`--split-by <column>`	`表的列名，用来切分工作单元，一般后面跟主键ID`
`--inline-lob-limit`	`设定大对象数据类型的最大值`

导入Hive

sqoop import 
--connect "jdbc:oracle:thin:@ip:1521:服务名" 
--username "xx" 
--password "xx" 
--query "$sql" 
--hive-table test.view_trjn 
--hive-drop-import-delims 
--target-dir "$db_dir" 
--fields-terminated-by "\t" 
--hive-overwrite 
--null-string '\N' 
--null-non-string '\N' --hive-import

参数	说明
`--hive-overwrite`	覆盖掉在hive表中已经存在的数据
`--hive-table`	后面接要创建的hive表
–hive-partition-value “2018-08-08”	指定分区表的值
`–hive-partition-key “dt”`	`指定分区表的字段`
`--hive-delims-replacement“ ”`	导入到Hive时，用用户定义的字符串替换字符串字段中的、和1
`--hive-drop-import-delims`	`从字符串字段中删除、和1`
`--hive-import`	`指定是导入 Hive`

sqoop数据导出

参数	说明
--direct	快速导入
--export-dir	HDFS 导出数据的目录
-m,--num-mappers	都少个 map 线程
--table	导出哪个表
--call	存储过程
--update-key	通过哪个字段来判断更新
--update-mode	插入模式，默认是只更新，可以设置为 allowinsert.
--input-null-string	字符类型 null 处理
--input-null-non-string	非字符类型 null 处理
--staging-table	临时表
--clear-staging-table	清空临时表
--batch	批量模式

HDFS —> MySQL

sqoop export 
--connect jdbc:mysql://hadoop01:3306/test 
--username hadoop 
--password root 
--table book 
--export-dir /sqoopdata 
--fields-terminated-by ','

hive----> MySQL

sqoop export 
--connect jdbc:mysql://hadoop01:3306/test 
--username hadoop 
--password root 
--table book 
--export-dir /user/hive/warehouse/uv/dt=2011-08-03 
--input-fileds-terminated-by '

hbase---->MySQL
默认的没有命令直接将hbase中的数据导入到MySQL，因为在hbase中的表数据量通常比较大，如果一次性导入到MySQL，可能导致MySQL直接崩溃。
但是可以用别的办法进行导入：
将 Hbase 数据，扁平化成 HDFS 文件，然后再由 sqoop 导入将 Hbase 数据导入 Hive 表中，然后再导入 mysql 直接使用 Hbase 的 Java API 读取表数据，直接向 mysql 导入，不需要使用 sqoop

FAQ

在使用sqoop从oracle导数到hive，报错：sqoop could not load db driver class:oracle.jdbc.OracleDriver

在安装sqoop server的节点上放oracle的驱动包

/opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar

并且修改权限为777

Sqoop将Oracle中的数据导入到Hive异常如下

20/05/25 11:30:55 INFO mapreduce.Job:  map 0% reduce 0%
20/05/25 11:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED
Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167)
    at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)
Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)
    at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
    ... 9 more
Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458)
    at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
    at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
    at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:32)
    at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:521)
    at java.sql.DriverManager.getConnection(DriverManager.java:664)
    at java.sql.DriverManager.getConnection(DriverManager.java:247)
    at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:302)
    at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:213)
    ... 10 more
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
    at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:392)
    at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:434)
    at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:687)
    at oracle.net.ns.NSProtocol.connect(NSProtocol.java:247)
    at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1102)
    at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320)
    ... 18 more
Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable)
    at java.net.PlainSocketImpl.socketConnect(Native Method)
    at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)

也可能是下面的错误

ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 错误: Connection reset
java.sql.SQLRecoverableException: IO 错误: Connection reset
	at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)
	at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
	at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
	at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.net.SocketException: Connection reset
	at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
	at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
	... 25 more
18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter
	at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1664)

进入 $JAVA_HOME/jre/lib/security目录下的java.security文件

cd $JAVA_HOME/jre/lib/security

vim java.security
修改securerandom.source=file:/dev/../dev/urandom，如果这个参数不管用改为securerandom.source=file:///dev/urandom 或手动添加参数-D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

如果依旧有问题进行以下操作

export HADOOP_OPTS=-Djava.security.egd=file:/dev/../dev/urandom

sqoop import -D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

先在命令行或脚本设置HADOOP_OPTS，然后再执行sqoop import就可以了，最好加上mapred.child.java.opts参数,并且在第二次导入的时候一定要加上--hive-overwrite参数。
注：有时候-m需要设置成1才可以。刚开始我将-m设置成2报错，我设置成1就可以了。

在脚本中export…和sqoop import -D mapred.child.java.opts都是不能少的。

This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.

参考：http://www.hohode.com/2018/09/28/Sqoop-Oracle-java-sql-SQLRecoverableException-IO-%E9%94%99%E8%AF%AF-Connection-reset/

查看全文

相关阅读:
PowerDesigner学习 ---- 系列文章
 PowerDesigner基础使用 ---- 入门学习
 PowerDesigner ---- 数据库设计（概念模型CDM和物理模型PDM）
PowerDesigner V16.5 安装及汉化
 在树莓派是安装并配置NTP服务
 RESTful Web API 理解
 Linux或树莓派3——挂载U盘、移动硬盘并设置rwx权限
 开启树莓派自带的VNC功能
 c#代码获取web.config配置文件里面设置的 <compilation debug="true"节点
 WebService的web客户端同步、异步、多线程向服务端传入参数的数据交互方式

原文地址：https://www.cnblogs.com/mergy/p/12932398.html