Sqoop 安装与基本操作

zoukankan html css js c++ java

Sqoop 安装与基本操作
Sqoop简介

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

Sqoop原理

将导入或导出命令翻译成mapreduce程序来实现。

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

Sqoop安装

安装Sqoop的前提是已经具备Java和Hadoop的环境。

1) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中

2) 解压sqoop安装包到指定目录，如：
$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/
3)修改配置文件：

Sqoop的配置文件与大多数大数据框架类似，在sqoop根目录下的conf目录中，重命名配置文件：
$ mv sqoop-env-template.sh sqoop-env.sh
修改配置文件 sqoop-env.sh (未安装zookeeper，hbase，hive不需要添加相关配置)：
　　export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2 　　export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2 　　export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10 　　export ZOOCFGDIR=/opt/module/zookeeper-3.4.10 　　export HBASE_HOME=/opt/module/hbase 　　export HIVE_HOME=/opt/module/hive
4) 拷贝JDBC驱动：

拷贝jdbc驱动到sqoop的lib目录下，如：
$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
5) 验证Sqoop安装是否成功：

我们可以通过某一个command来验证sqoop配置是否正确：

$ bin/sqoop help

出现一些Warning警告（警告信息已省略），并伴随着帮助命令的输出信息，表示安装成功。

6) 开启MySQL远程访问权限允许远程连接

登陆mysql数据库
mysql -u root -p;
切换数据库
mysql> use mysql;
将host字段的值改为%就表示在任何客户端机器上能以root用户登录到mysql服务器，建议在开发时设为%。
update user set host = ’%’ where user = ’root’;
刷新权限分配

flush privileges;

7) 测试Sqoop是否能够成功连接数据库
　bin/sqoop list-databases --connect jdbc:mysql://192.168.2.198:3306/ --username root --password 000000
出现mysql所有数据库库名称：
information_schema metastore mysql sys world
Sqoop的简单使用案例

(1) 导入数据

在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HBASE）中传输数据，叫做：导入，即使用import关键字。

RDBMS到HDFS

1.全部导入

$ bin/sqoop import

--connect jdbc:mysql://192.168.2.198:3306/company

--username root

--password 000000

--table staff

--target-dir /user/company

--delete-target-dir

--num-mappers 1

--fields-terminated-by " "

2.部分导入
$ bin/sqoop import --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by " " --query 'select name,sex from staff where id <=1 and $CONDITIONS;'
3.查询导入结果
hdfs dfs -ls /user/company
结果：
Found 2 items -rw-r--r-- 2 root supergroup 0 2018-11-13 01:22 /user/company /_SUCCESS -rw-r--r-- 2 root supergroup 367 2018-11-13 01:22 /user/company/part-m-00000
RDBMS到Hbase
$ bin/sqoop import --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --table company --columns "id,name,sex" --column-family "info" --hbase-create-table --hbase-row-key "id" --hbase-table "hbase_company" --num-mappers 1 --split-by id
提示：sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能

解决方案：手动创建HBase表
hbase> create 'hbase_company,'info'
4.在HBase中scan这张表得到如下内容
hbase> scan ‘hbase_company’
（2）导出数据

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。

1. HIVE/HDFS到RDBMS
$ bin/sqoop export --connect jdbc:mysql://192.168.2.198:3306/company --username root --password 000000 --table staff --num-mappers 1 --export-dir /user/hive/warehouse/staff_hive --input-fields-terminated-by " "
提示：Mysql中如果表不存在，不会自动创建

2. HBASE到RDBMS

从Hbase导入MySQL数据库

该过程需要借助Hive，需要使用Hive的托管表和外部表。

①、在mysql在建立相应的表
create table employee( rowkey int(11) not null,id int(11) not null,name varchar(20)) charset=utf8;
②、建立Hive的外部表并关联hbase

建表语句：
create table h_employee( key int, id int, name string ) stored by "org.apache.hadoop.hive.hbase.HBaseStorageHandler" with serdeproperties("hbase.columns.mapping"=":key,info:id,info:name") tblproperties("hbase.table.name"="employee");
③、建立Hive的托管表
create table h_employee_export( key int, id int, name string ) row format delimited fields terminated by '54'
其中`row format delimited fields terminated by '54'` 表示Hive托管表中字段之间的分隔符，`54` 是八进制表示形式，十进制为44，ascii为44的符号为逗号。可以改变为其他的符号。

④、将外部表（h_employee）导入到托管表（h_employee_export）
insert overwrite table h_employee_export select * from h_employee;
⑤、从Hive托管表（h_employee_export）导入到MySQL
sqoop export –connect jdbc:mysql://192.168.2.198:3306/ly –username root –password 0987654321 –table employee –bindir /home/ly/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib –export-dir /user/hive/warehouse/h_employee_export/ –mysql-delimiters –input-fields-terminated-by ‘ ’
查看全文

相关阅读:
前端程序员的进阶
 字符集的知识
 通晓多种编程语言的程序员，真香？
理解 Docker
免费开源软件的潜在安全风险
 技术编程人员成长的 9 个段位
 如何更好的设计 RESTful API
selenium环境搭建：
自动化测试有哪些？
删除书籍：

原文地址：https://www.cnblogs.com/ypsy/p/9965028.html

Sqoop 安装与基本操作

Sqoop简介

Sqoop安装

Sqoop的简单使用案例