zoukankan      html  css  js  c++  java
  • hive表增量抽取到mysql(关系数据库)的通用程序(三)

    hive表增量抽取到oracle数据库的通用程序(一)
    hive表增量抽取到oracle数据库的通用程序(二)

    这几天又用到了该功能了,所以又改进了一版,增加了全量抽取和批量抽取两个参数。并且可以设置每批次抽取到记录数。

    使用shell脚本可以方便的将hive中数据抽取到任何关系型数据库中。

    shell脚本到demo如下,为便于测试,将每批次处理改为2条记录:

    #!/bin/sh
    
    ## !!!注意lib中jar包兼容性问题:
    ## 如果包含log4j-slf4j-impl-2.6.2.jar、log4j-web-2.6.2.jar,请删除,否则会导致冲突,程序启动报错。
    ##
    
    dim_code=day
    dim_value=`date -d "yesterday" +%Y%m%d`
    
    ## 以下字段不能换行
    rdms_driver='com.mysql.jdbc.Driver'
    rdms_url='jdbc:mysql://xx.xx.xx.xx:3306/bigdata?characterEncoding=UTF8'
    rdms_username='bigdata'
    rdms_password='123456'
    rdms_tableName=app_flow_general
    rdms_columnNames='tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr'
    rdms_presql='delete from app_flow_general where dim_code = "'${dim_code}'" and dim_value ="'${dim_value}'"'
    
    ## 依赖hiveServer2
    hive_url='jdbc:hive2://dwdev-name1:10000/default'
    hive_hql='select tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr from dw_app.app_flow_general where dim_code = "'${dim_code}'" and dim_value = "'${dim_value}'"'
    
    ## 以下是执行java程序,可根据实际情况调整,默认可以不修改
    ## lib为jar依赖包文件夹
    ## hive_hql: 必填, hive中查询语句
    ## rdms_tableName: 必填,目标表名
    ## rdms_columnNames: 必填,目标表字段
    ## rdms_presql: 可选, 执行插入前,在RDMS中预先执行的sql。通常用来重复导入时候,先删除之前的错误数据
    ## batch_size: 可选, 默认值5000,和insert_model配合使用,当insert_model为0时才有效
    ## insert_model: 可选, 默认0, 默认分批次插入,0-分批次读取插入, 1-全部一次性读取插入
    java -Djava.ext.dirs=lib com.etl.Hive2RMDS 
    --hive_url "${hive_url}" 
    --hive_hql "${hive_hql}" 
    --rdms_driver "${rdms_driver}" 
    --rdms_url "${rdms_url}" 
    --rdms_username "${rdms_username}" 
    --rdms_password "${rdms_password}" 
    --rdms_tableName "${rdms_tableName}" 
    --rdms_columnNames "${rdms_columnNames}" 
    --rdms_presql "${rdms_presql}" 
    --batch_size '2' 
    --insert_model '0'

    执行文件目录结构如下:

    lib文件夹放所有依赖包,lib文件夹和shell脚本同层。

     实际运行时,显示解析的参数

    一共4条记录,分2批次导入。

    注意hive用的版本是apache 2.3.3,不支持cdh5的hive版本。

    源程序下面gitee:

    https://gitee.com/pang123/hive2etl

  • 相关阅读:
    8) linux安装samba服务器
    7) k8s获取apiversion下面的对应可用资源
    4) cobbler自动安装linux
    3) KVM命令--使用篇(1)
    2) 各种开源环境自动部署脚本
    1) nginx编译安装
    扁平式小清新导航
    互联网公司常用水平导航(二级导航)
    水平导航-三级导航-切换流畅
    简约蓝色系导航(三级导航)
  • 原文地址:https://www.cnblogs.com/30go/p/10560260.html
Copyright © 2011-2022 走看看