Sqoop简介
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
Sqoop原理
将导入或导出命令翻译成mapreduce程序来实现。
在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
Sqoop安装
安装Sqoop的前提是已经具备Java和Hadoop的环境。
1) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中
2) 解压sqoop安装包到指定目录,如:
$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/
3)修改配置文件:
Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中,重命名配置文件:
$ mv sqoop-env-template.sh sqoop-env.sh
修改配置文件 sqoop-env.sh (未安装zookeeper,hbase,hive不需要添加相关配置):
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase
export HIVE_HOME=/opt/module/hive
4) 拷贝JDBC驱动:
拷贝jdbc驱动到sqoop的lib目录下,如:
$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
5) 验证Sqoop安装是否成功:
我们可以通过某一个command来验证sqoop配置是否正确:
$ bin/sqoop help
出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出信息,表示安装成功。
6) 开启MySQL远程访问权限 允许远程连接
登陆mysql数据库
mysql -u root -p;
切换数据库
mysql> use mysql;
将host字段的值改为%就表示在任何客户端机器上能以root用户登录到mysql服务器,建议在开发时设为%。
update user set host = ’%’ where user = ’root’;
刷新权限分配
flush privileges;
7) 测试Sqoop是否能够成功连接数据库
bin/sqoop list-databases --connect jdbc:mysql://192.168.2.198:3306/ --username root --password 000000
出现mysql所有数据库库名称:
information_schema
metastore
mysql
sys
world
Sqoop的简单使用案例
(1) 导入数据
在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HBASE)中传输数据,叫做:导入,即使用import关键字。
RDBMS到HDFS
1.全部导入
$ bin/sqoop import
--connect jdbc:mysql://192.168.2.198:3306/company
--username root
--password 000000
--table staff
--target-dir /user/company
--delete-target-dir
--num-mappers 1
--fields-terminated-by " "
2.部分导入
$ bin/sqoop import --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by " " --query 'select name,sex from staff where id <=1 and $CONDITIONS;'
3.查询导入结果
hdfs dfs -ls /user/company
结果:
Found 2 items -rw-r--r-- 2 root supergroup 0 2018-11-13 01:22 /user/company /_SUCCESS -rw-r--r-- 2 root supergroup 367 2018-11-13 01:22 /user/company/part-m-00000
RDBMS到Hbase
$ bin/sqoop import --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --table company --columns "id,name,sex" --column-family "info" --hbase-create-table --hbase-row-key "id" --hbase-table "hbase_company" --num-mappers 1 --split-by id
提示:sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能
解决方案:手动创建HBase表
hbase> create 'hbase_company,'info'
4.在HBase中scan这张表得到如下内容
hbase> scan ‘hbase_company’
(2)导出数据
在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。
1. HIVE/HDFS到RDBMS
$ bin/sqoop export --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --table staff --num-mappers 1 --export-dir /user/hive/warehouse/staff_hive --input-fields-terminated-by " "
提示:Mysql中如果表不存在,不会自动创建
2. HBASE到RDBMS
从Hbase导入MySQL数据库
该过程需要借助Hive,需要使用Hive的托管表和外部表。
①、在mysql在建立相应的表
create table employee( rowkey int(11) not null,id int(11) not null,name varchar(20)) charset=utf8;
②、建立Hive的外部表并关联hbase
建表语句:
create table h_employee( key int, id int, name string ) stored by "org.apache.hadoop.hive.hbase.HBaseStorageHandler" with serdeproperties("hbase.columns.mapping"=":key,info:id,info:name") tblproperties("hbase.table.name"="employee");
③、建立Hive的托管表
create table h_employee_export( key int, id int, name string ) row format delimited fields terminated by '