zoukankan      html  css  js  c++  java
  • 通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

    通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

    下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
    一、Mysql与HDFS互导数据
    环境:
    宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96
    3台虚拟机操作系统为Ubuntu-12.04.1-32位
    三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts为:
    192.168.66.91 masternode
    192.168.66.92 slavenode1
    192.168.66.93 slavenode2
    /etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
    实验在masternode上进行,已成功连接mysql

    步骤一,下载安装包:
    我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
    下载相关文件:
    http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
    http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
    sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
    另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。

    步骤二,相关配置:
    修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then 
    # echo “Error: $HBASE_HOME does not exist!” 
    # echo ‘Please set $HBASE_HOME to the root of your HBase installation.’ 
    # exit 1 
    #fi 
    #if [ ! -d "${ZOOKEEPER_HOME}" ]; then 
    # echo “Error: $ZOOKEEPER_HOME does not exist!” 
    # echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’ 
    # exit 1 
    #fi

    修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
    添加  export SQOOP_HOME=/home/grid/sqoop
    在原有PATH后添加 :$SQOOP_HOME/bin

    步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
    创建用户sqoop并授权:
    grant all privileges on *.* to  'sqoop'@'%' identified by 'sqoop' with grant option;

    创建表空间(schema)sqoop,并创建测试表:
    create table students (
    id int not null primary key,
    name varchar(20),
    age int) 

    插入测试数据:
    insert into students values('10001','liyang',29);
    insert into students values('10002','lion',28);
    insert into students values('10003','leon',26);

    在masternode测试sqoop能否成功连接宿主机器上的mysql:
    sqoop list-tables --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
    如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!

    步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
    启动hadoop:
    start-all.sh
    用jps验证启动是否成功
    显示正在运行以下进程即为启动成功:
    2820 SecondaryNameNode
    4539 Jps
    2887 JobTracker
    2595 NameNode

    从mysql导入数据,运行如下命令:
    sqoop import --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password  sqoop  --table students -m 1

    验证导入数据是否成功:
    若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
    运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
    运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
    10001,liyang,29
    10002,lion,28
    10003,leon,26

    步骤五,将HDFS中的数据导入Mysql的students表中:
    首先将mysql的students表数据清空:
    delete from students;

    然后在masternode上执行导出数据命令:
    sqoop export --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

    若成功,在mysql中会看到students表中的数据恢复了!

    注意:过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!

    二、Mysql与Hbase互导数据
    将mysql的数据导入hbase的命令格式为:
    sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
    其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作 为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名

    例如:可通过如下命令将Mysql中的students表导入到Hbase中:
    /home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
    成功执行后,可在hbase中用以下命令查看结果:
    hbase(main):011:0> scan 'students'    
    ROW                   COLUMN+CELL                                                
    10001                column=stuinfo:age, timestamp=1356759994058, value=29      
    10001                column=stuinfo:name, timestamp=1356759994058, value=liyang 
    10002                column=stuinfo:age, timestamp=1356760044478, value=28      
    10002                column=stuinfo:name, timestamp=1356760044478, value=lion   
    10003                column=stuinfo:age, timestamp=1356760044478, value=26      
    10003                column=stuinfo:name, timestamp=1356760044478, value=leon   
    3 row(s) in 0.0900 seconds

    三、Oracle与Hbase互导数据
    将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
    sqoop import --append --connect jdbcracle:thin:@192.168.66.90:1521rcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

  • 相关阅读:
    create_pascal_tf_record.py 生成的record一直为0字节
    移植别人的vcpkg包到自己的项目
    评价目标检测(object detection)模型的参数:IOU,AP,mAP
    python 当文件目录不存在时,如何自动创建
    Spring validator常用注解
    @Slf4j的使用
    spring @Validated 注解开发中使用group分组校验
    @ControllerAdvice + @ExceptionHandler 全局处理 Controller 层异常==》记录
    idea 创建各种类型项目(pom,jar.web)
    Linux下RabbitMQ服务器搭建
  • 原文地址:https://www.cnblogs.com/seasonzone/p/4194476.html
Copyright © 2011-2022 走看看