zoukankan      html  css  js  c++  java
  • Sqoop实现自定义job的增量导入

    需求:redis缓存的数据隔段时间往MySQL中写入一次。如果按照job的增量导入,比如上次redis向mysql导入数据时间为8:00,下一次导入时间为9:00,8:20sqoop进行增量导入,导入的时*~8:20的数据,sqoop把job中的最后导入时间设置为8:20。当9:00redis向mysql再次导入数据,9:20sqoop会将mysql中8:20~9:20数据导入到hive中,那么8:00~8:20的数据没有导入到hive中。
    1、批量创建sqoop job:

    #!/bin/bash
    set -e
    
    #create sqoop jobs
    ret=$(cat tables|wc -l)  #tables中存放所有表名
    i=1
    
    while [ $i -le $ret ]
    do
            row=$(sed -n "$i,0p" tables)
            sqoop job --create "incre_"$row -- import --connect  jdbc:mysql://10.9.1.19:3306/db  --table $row --username root --password root -m 1  --hive-import --incremental lastmodified --check-column dtTime  --last-value '2015-12-02 10:59:56.0'
    #此处last--value可以随意指定
            i=`expr $i + 1`
    done
    sqoop job --list

    2、批量删除job

    #!/bin/bash
    set -e
    
    #create sqoop jobs
    ret=$(cat tables|wc -l)
    i=1
    while [ $i -le $ret ]
    do
            row=$(sed -n "$i,0p" tables)
            sqoop job --delete "incre_"$row
            i=`expr $i + 1`
    done
    sqoop job --list

    3、查询最后导入到hive中数据的dtTime值

    自动增量导入,实现按照某个字段在hive中最后的值开始的导入,而不是按saved job中指定的值
    
    #获取所有tables文件中指定的表的最后dtTime值,并修改sqoop  job的元数据,最后执行job
    #!/bin/bash
    set -e
    #set -x
    
    source ~/.bash_profile
    SQOOP_METASTORE=/usr/local/sqoop-1.4.6/metastore/meta.db.script
    ret=$(cat tables|wc -l)
    i=1
    while [ $i -le $ret ]
    do
            row=$(sed -n "$i,0p" tables)
            JOB_NAME="incre_"$row
            lastedate=$(hive -e "select max(dtTime) from $row")
            echo "lastest time:"$lastedate>>/data/incre.log.d/$JOB_NAME.log
            #将时间中的.0替换为.1
            newdate=$(echo $lastedate|sed 's/.0/.1/g')
            echo "beginning time:"$newdate>>/data/incre.log.d/$JOB_NAME.log
            #替换sqoop的元数据
            #cat $SQOOP_METASTORE|grep "'$JOB_NAME','incremental.last.value'"|sed "s/20.*-.*.0/$ret/g"
            sed -i "s/'$JOB_NAME','incremental.last.value','.*','SqoopOptions'/'$JOB_NAME','incremental.last.value','$newdate','SqoopOptions'/g" $SQOOP_METASTORE
            cat $SQOOP_METASTORE|grep "'$JOB_NAME','incremental.last.value'">>/data/incre.log.d/$JOB_NAME.log
            sqoop job --exec $JOB_NAME
            i=`expr $i + 1`
    done
  • 相关阅读:
    恢复oracle中误删除drop掉的表
    mysql安装教程(小白入门)
    各版本mysql下载安装教程(超详细,超全)
    Jetbrains系列产品2019.3.3及以下版本最新激活方法
    老友记全季高清视频(中英字幕)及学习资料(剧本,音频,台词)等等!
    电脑桌面快捷方式小箭头的去与留!
    Sublime Text 3破解教程及应用技巧和诀窍(完美激活)
    7个堪称经典的电脑小技巧,让你办公事半功倍!
    怎么优化,美化电脑桌面(Fences v3.0.9 中文破解版)来这里教你。
    JAVA
  • 原文地址:https://www.cnblogs.com/ggzone/p/5094490.html
Copyright © 2011-2022 走看看