zoukankan      html  css  js  c++  java
  • Sqoop 安装与基本操作

    Sqoop简介

    Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

    Sqoop原理

    将导入或导出命令翻译成mapreduce程序来实现。

    在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

    Sqoop安装

    安装Sqoop的前提是已经具备Java和Hadoop的环境。

    1) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中

    2) 解压sqoop安装包到指定目录,如:

    $ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

    3)修改配置文件:

    Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中,重命名配置文件:

    $ mv sqoop-env-template.sh sqoop-env.sh

    修改配置文件 sqoop-env.sh (未安装zookeeper,hbase,hive不需要添加相关配置):

      export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
    
      export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
    
      export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
    
      export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
    
      export HBASE_HOME=/opt/module/hbase
    
      export HIVE_HOME=/opt/module/hive

    4) 拷贝JDBC驱动:

    拷贝jdbc驱动到sqoop的lib目录下,如:

    $ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

    5) 验证Sqoop安装是否成功:

    我们可以通过某一个command来验证sqoop配置是否正确:

    $ bin/sqoop help

    出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出信息,表示安装成功。

    6) 开启MySQL远程访问权限 允许远程连接

    登陆mysql数据库    

    mysql -u root -p;

    切换数据库

      mysql> use mysql; 

    将host字段的值改为%就表示在任何客户端机器上能以root用户登录到mysql服务器,建议在开发时设为%。   

    update user set host =%where user = ’root’;

    刷新权限分配

    flush privileges;

    7) 测试Sqoop是否能够成功连接数据库

     bin/sqoop list-databases --connect jdbc:mysql://192.168.2.198:3306/ --username root --password 000000

    出现mysql所有数据库库名称:

    information_schema
    
    metastore
    
    mysql
    
    sys
    
    world

    Sqoop的简单使用案例

    (1) 导入数据

    在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HBASE)中传输数据,叫做:导入,即使用import关键字。

    RDBMS到HDFS

     1.全部导入

    $ bin/sqoop import  

    --connect jdbc:mysql://192.168.2.198:3306/company

    --username root

    --password 000000

    --table staff

    --target-dir /user/company

    --delete-target-dir

    --num-mappers 1 

    --fields-terminated-by " "

     2.部分导入

    $ bin/sqoop import
    
    --connect jdbc:mysql://192.168.2.198:3306/company
    
    --username root
    
    --password 000000
    
    --target-dir /user/company
    
    --delete-target-dir
    
    --num-mappers 1
    
    --fields-terminated-by "	"
    
    --query 'select name,sex from staff where id <=1 and $CONDITIONS;'

     3.查询导入结果

    hdfs dfs -ls /user/company

    结果:

    Found 2 items
    
    -rw-r--r--   2 root supergroup     0 2018-11-13 01:22 /user/company /_SUCCESS
    
    -rw-r--r-- 2 root supergroup 367 2018-11-13 01:22 /user/company/part-m-00000

    RDBMS到Hbase

    $ bin/sqoop import 
    --connect jdbc:mysql://192.168.2.198:3306/company 
    --username root 
    --password 000000 
    --table company 
    --columns "id,name,sex" 
    --column-family "info" 
    --hbase-create-table 
    --hbase-row-key "id" 
    --hbase-table "hbase_company" 
    --num-mappers 1 
    --split-by id

    提示:sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能

    解决方案:手动创建HBase表

    hbase> create 'hbase_company,'info'

     4.在HBase中scan这张表得到如下内容

    hbase> scan ‘hbase_company’

    (2)导出数据

    在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。

    1. HIVE/HDFS到RDBMS

    $ bin/sqoop export 
    
    --connect jdbc:mysql://192.168.2.198:3306/company 
    
    --username root 
    
    --password 000000 
    
    --table staff 
    
    --num-mappers 1 
    
    --export-dir /user/hive/warehouse/staff_hive 
    
    --input-fields-terminated-by "	"

    提示:Mysql中如果表不存在,不会自动创建

    2. HBASE到RDBMS

    从Hbase导入MySQL数据库

    该过程需要借助Hive,需要使用Hive的托管表和外部表。

    ①、在mysql在建立相应的表

    create table employee( rowkey int(11) not null,id int(11) not null,name varchar(20)) charset=utf8;

    ②、建立Hive的外部表并关联hbase

    建表语句:

    create table h_employee( key int, id int, name string )
    
    stored by "org.apache.hadoop.hive.hbase.HBaseStorageHandler"
    
    with serdeproperties("hbase.columns.mapping"=":key,info:id,info:name")
    
    tblproperties("hbase.table.name"="employee");

    ③、建立Hive的托管表

       create table h_employee_export( key int, id int, name string  )
    
       row format delimited fields terminated by '54'

     其中`row format delimited fields terminated by '54'` 表示Hive托管表中字段之间的分隔符,`54` 是八进制表示形式,十进制为44,ascii为44的符号为逗号。可以改变为其他的符号。

    ④、将外部表(h_employee)导入到托管表(h_employee_export)

    insert overwrite table h_employee_export select * from h_employee;

    ⑤、从Hive托管表(h_employee_export)导入到MySQL

    sqoop export –connect jdbc:mysql://192.168.2.198:3306/ly –username root –password 0987654321 –table employee –bindir /home/ly/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib –export-dir /user/hive/warehouse/h_employee_export/ –mysql-delimiters –input-fields-terminated-by ‘	’
  • 相关阅读:
    enumerate()
    列表
    pycharm下getpass.getpass()卡住
    字符编码
    while_else
    guess_age
    数据类型
    python发展史
    吴裕雄--天生自然轻量级JAVA EE企业应用开发Struts2Sping4Hibernate整合开发学习笔记:JSP的基本原理
    吴裕雄--天生自然轻量级JAVA EE企业应用开发Struts2Sping4Hibernate整合开发学习笔记:Web应用和web.xml文件
  • 原文地址:https://www.cnblogs.com/ypsy/p/9965028.html
Copyright © 2011-2022 走看看