zoukankan      html  css  js  c++  java
  • sqoop 数据导入hive

    一. sqoop: mysql->hive

    sqoop import -m 1 --hive-import --connect "jdbc:mysql://127.0.0.1:3306/TEST?zeroDateTimeBehavior=CONVERT_TO_NULL&useUnicode=true&characterEncoding=utf-8&serverTimezone=Asia/Shanghai" --username sa --password-file /user/root/_sqoop/pwd127.txt --table user --hive-database TEST --hive-table user 
    

     这里jdbc url后面跟了一些连接参数,看情况可有可无;

    二.sqoop: oracle->hive

    # 使用oracle 服务名jdbc url
    sqoop import --connect jdbc:oracle:thin:@//127.0.0.1:1521/ORCL --username sa --password 123456  --table TEST.user--hive-import --hive-database test --hive-table user  -m 1
    # 使用oracle SID jdbs url
    sqoop import --connect jdbc:oracle:thin:@127.0.0.1:1521:ORCL --username sa --password 123456 --table TEST.user --hive-import --hive-database test --hive-table user  -m 1
    

     三.建立增量任务

      1.启动sqoop metastore服务存储job

    sqoop metastore
    

       2.创建增量任务

    sqoop job [metastore] --create <job_name> -- <import_task> --incremental append --check-column id --last-value <last_id>
    
    sqoop job --meta-connect jdbc:hsqldb:hsql://192.168.1.70:16000/sqoop --create sync_test -- 
    import -m 1 --hive-import --connect "jdbc:mysql://192.168.1.196:3306/TEST" --username sa --password-file /user/root/_sqoop/pwd127.txt --table user --hive-database TEST --hive-table user 
    --incremental append --check-column id --last-value 0
    

     TIPS: 不指定metastore时默认使用本地的hsql,分布式的时候不可用;

    --check-cloumn 须要是 not null ,有序字段

    --last-value 如果是第一次导入可以是 0,(一开始就使用增量导入)

    3.运行任务

    sqoop job [metastore] --exec <job_name>
    sqoop job --meta-connect jdbc:hsqldb:hsql://192.168.1.70:16000/sqoop --exec sync_test
    

         sqoop job [metastore] --list 可以查看任务列表

    四,HUE 任务

      1.建立workflow;

      2.在workspace 空间中建立sh文件

      3.在sh中写入增量任务命令::sqoop job --meta-connect jdbc:hsqldb:hsql://192.168.1.70:16000/sqoop --exec sync_test

      4.再编辑workflow 添加shell组件,选择workspace中的sh文件, 测试

      5.建立schedule,将workflow添加进来,编辑运行规则;

    更多细节可参考:

     https://www.cnblogs.com/canyangfeixue/p/4731520.html

    .http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html

  • 相关阅读:
    C语言的数组,指针,二级指针,指针数组和数组指针的简单理解
    bash shell 中时间操作常用方法总结
    常见字符串操作方式总结
    查看机器负载常用姿势总结
    netstat命令常用总结
    【技术累积】【点】【java】【20】static关键字
    【技术累积】【点】【java】【19】访问权限
    【技术累积】【点】【java】【18】URLEncode
    【技术累积】【点】【sql】【17】了解索引
    【技术累积】【点】【算法】【17】算法的时间复杂度和空间复杂度
  • 原文地址:https://www.cnblogs.com/huaizhi/p/12035598.html
Copyright © 2011-2022 走看看