zoukankan      html  css  js  c++  java
  • Umengday11-azkaban调度

    azkaban调度

    版权声明:原创作品,谢绝转载!否则将追究法律责任。个人学习工作中的一些笔记和Demo,后期会继续补充和完善. 作者:Steven(丁振春)
    学习六重:重目标,重思路,重方法,重实践,重习惯,重总结。

    1、概述

    azkaban是一套调度系统,常用大数据作业调度。azkaban包括web和executor两套程序,web主要完成展示和交互,executor上完成调度和作业提交执行。

    2、安装

    https://github.com/azkaban/azkaban/commit/16b9c637cb1ba98932da7e1f69b2f93e7882b723

    3、启动

    3.1 启动web程序

    $>/soft/azkaban/web/bin/azkaban-web-start.sh
    

    3.2 执行executor程序

    $>/soft/azkaban-exec/bin/azkaban-executor-start.sh
    

    4、登录webui

    http://s101:8081
    

    5、登录界面

    azkaban-001

    azkaban-002

    6、创建工程

    6.1 点击创建项目按钮

    azkaban-003

    6.2 输入项目信息

    azkaban-004

    6.3 查看创建项目

    azkaban-005

    7、创建job文件和依赖关系

    7.1 编写job文件

    job文件以job作为扩展名,job中涉及的sh脚本需要保证在executor节点上存在,实际执行时都是由executor在本机上执行特定的shell脚本。

    注意:编写shell脚本时,windows上有些不可见字符在linux的解释器识别为非法字符。因此,如果使用windows编写脚本,最好使用notepad编写。linux常出现的"^M"字样,无法解释。

    7.1.1 加载hdfs数据到hive的原生日志表
    1. 创建sql脚本文件,加载hdfs数据到hive原生表,在脚本中使用hive配置变量。注意分区:

      [load_data_to_hive_raw_logs.sql]

      use big12_umeng ;
      load data inpath 'hdfs://mycluster/user/centos/big12_umeng/raw-logs/${hiveconf:ym}/${hiveconf:day}/${hiveconf:hm}' into table raw_logs partition(ym=${hiveconf:ym},day=${hiveconf:day}) ;
      
    2. 编写shell脚本,调用上面的sql脚本

      [load_data_to_hive_raw_logs.sh]

      #!/bin/bash
      cd /home/centos/big12_umeng
      if [[ $# = 0 ]] ;
      then time=`date -d "-1 days" "+%Y%m-%d"` ;
      else time=$1$2-$3
      fi
      
      #external time variable
      echo -n $time > _time
      
      ym=`echo $time | awk -F '-' '{print $1}'`
      day=`echo $time | awk -F '-' '{print $2}'`
      
      hive -hiveconf ym=${ym} -hiveconf day=${day} -f load_data_to_hive_raw_logs.sql
      
    3. 编写azkaban作业文件

      [1_load_data_to_hive_raw_logs.job]

      type=command
      command=sh /home/centos/big12_umeng/load_data_to_hive_raw_logs.sh
      
    7.1.2 叉分hive的原生日志表,生成5个日志子表
    1. 编写数据清洗的sql脚本文件

      [data_clean_startuplog.sql]

      -- appstartuplog
      use big12_umeng ;
      
      insert into appstartuplogs partition(ym , day)
      select
        t.appChannel ,
        t.appId ,
        t.appPlatform ,
        t.appVersion ,
        t.brand ,
        t.carrier ,
        t.country ,
        t.createdAtMs ,
        t.deviceId ,
        t.deviceStyle ,
        t.ipAddress ,
        t.network ,
        t.osType ,
        t.province ,
        t.screenSize ,
        t.tenantId ,
        formatbyday(t.createdatms , 0 , 'yyyyMM') ,
        formatbyday(t.createdatms , 0 , 'dd')
      from
       (
           select forkstartuplogs(servertimestr ,clienttimems ,clientip ,json) 
           from raw_logs where concat(ym,day) = '${ymd}'
       )t;
      
      
    2. 编写shell脚本,调用以上的sql脚本

      [data_clean.sh]

      #!/bin/bash
      cd /home/centos/big12_umeng
      
      spark-submit --master yarn --jars /home/centos/big12_umeng/ument_hive.jar --class com.oldboy.umeng.spark.stat.DataClean /home/centos/big12_umeng/umeng_spark.jar $1 `cat _time | awk -F '-' '{print $1$2}'`
      

      事件日志、错误日志类同。

    3. 编写azkaban的job文件

      [2_1_data_clean_startuplog.job]

      type=command
      command=sh /home/centos/big12_umeng/data_clean.sh /home/centos/big12_umeng/data_clean_startup.sql
      dependencies=1_load_data_to_hive_raw_logs
      
    4. 依次编写剩余的四个job文件即可

      [2_2_data_clean_eventlog.job]

      type=command
      command=sh /home/centos/big12_umeng/data_clean.sh /home/centos/big12_umeng/data_clean_eventlog.sql
      dependencies=1_load_data_to_hive_raw_logs
      

      [2_3_data_clean_errorlog.job]

      type=command
      command=sh /home/centos/big12_umeng/data_clean.sh /home/centos/big12_umeng/data_clean_errorlog.sql
      

      [2_4_data_clean_pagelog.job]

      type=command
      command=sh /home/centos/big12_umeng/data_clean.sh /home/centos/big12_umeng/data_clean_pagelog.sql
      

      [2_5_data_clean_usagelog.job]

      type=command
      command=sh /home/centos/big12_umeng/data_clean.sh /home/centos/big12_umeng/data_clean_usagelog.sql
      
    7.1.3 执行统计分析任务
    7.1.3.1 活跃用户统计
    1. 昨日日活统计

      1. 编写sql脚本

        [stat_act_day.sql]

        use big12_umeng ;
        create table if not exists stat_act_day(
            day string ,
            appid string,
            appplatform string,
            brand string ,
            devicestyle string,
            ostype string ,
            appversion string ,
            cnt int
        )
        ROW FORMAT DELIMITED
        FIELDS TERMINATED BY ','
        lines terminated by '
        ';
        
        insert into table stat_act_day
        select
          '${ymd}',
          ifnull(tt.appid ,'NULLL') ,
          ifnull(tt.appplatform,'NULLL') ,
          ifnull(tt.brand ,'NULLL') ,
          ifnull(tt.devicestyle,'NULLL') ,
          ifnull(tt.ostype ,'NULLL') ,
          ifnull(tt.appversion ,'NULLL') ,
          count(tt.deviceid)
        FROM
        (
            select
            t.appid ,
            t.appplatform,
            t.brand ,
            t.devicestyle,
            t.ostype ,
            t.appversion ,
            t.deviceid
            FROM
            (
                select
                appid ,
                appplatform,
                brand ,
                devicestyle,
                ostype ,
                appversion ,
                deviceid
                from
                appstartuplogs
                WHERE
                concat(ym,day) = '${ymd}'
                group BY
                appid ,
                appplatform,
                brand ,
                devicestyle,
                ostype ,
                appversion,
                deviceid
                with cube
            )t
            where
            t.appid is not null
            and t.deviceid is not null
        )tt
        group BY
          tt.appid ,
          tt.appplatform,
          tt.brand ,
          tt.devicestyle,
          tt.ostype ,
          tt.appversion
        order by
          tt.appid ,
          tt.appplatform,
          tt.brand ,
          tt.devicestyle,
          tt.ostype ,
          tt.appversion
        
      2. 编写shell脚本,调用sql脚本

        [stat_act_day.sh]

        #!/bin/bash
        cd /home/centos/big12_umeng
        spark-submit --master yarn --jars /home/centos/big12_umeng/umeng_hive.jar umeng_spark.jar com.oldboy.umeng.spark.stat.StatActDay `cat _time | awk -F '-' '{print $1$2}'`
        
      3. 编写job文件

        [3_1_stat_act_day.job]

        type=command
        command=sh /home/centos/big12_umeng/stat_act_day.sh /home/centos/big12_umeng/stat_act_day.sql
        dependencies=2_1_data_clean_startuplog
        
    2. 昨日周活统计

      略。

    3. 昨日月活统计

      略。

    7.1.3.2 新增用户统计
    1. 昨日新增

      • 编写sql脚本

        [stat_new_day.sql]

        use big12_umeng ;
        create table if not exists stat_new_day(
            day string ,
            appid string,
            appplatform string,
            brand string ,
            devicestyle string,
            ostype string ,
            appversion string ,
            cnt int
        )
        ROW FORMAT DELIMITED
        FIELDS TERMINATED BY ','
        lines terminated by '
        ';
        
        insert into table stat_new_day
        SELECT
          '${ymd}' ,
          t.appid ,
          t.appversion ,
          t.appplatform,
          t.brand ,
          t.devicestyle,
          t.ostype ,
          count(t.deviceid) cnt
        FROM
          (
              select
              appid ,
              appplatform,
              brand ,
              devicestyle,
              ostype ,
              appversion ,
              deviceid ,
              min(createdatms) firsttime
              from
              appstartuplogs
              group BY
              appid ,
              appplatform,
              brand ,
              devicestyle,
              ostype ,
              appversion,
              deviceid
              with cube
          )t
        WHERE
          t.appid is not NULL
          and t.deviceid is not null
          and formatbyday(t.firsttime , 0 , 'yyyyMMdd')  = '${ymd}'
        group by
            t.appid ,
            t.appversion ,
            t.appplatform,
            t.brand ,
            t.devicestyle,
            t.ostype
        order BY
            t.appid ,
            t.appversion ,
            t.appplatform,
            t.brand ,
            t.devicestyle,
            t.ostype
        
      • 编写shell脚本

        [stat_new_day.sh]

        #!/bin/bash
        cd /home/centos/big12_umeng
        spark-submit --master yarn --jars /home/centos/big12_umeng/umeng_hive.jar umeng_spark.jar com.oldboy.umeng.spark.stat.StatNewDay `cat _time | awk -F '-' '{print $1$2}'`
        
      • 编写job文件

        [3_2_stat_new_day.job]

        type=command
        command=sh /home/centos/big12_umeng/stat_new_day.sh /home/centos/big12_umeng/stat_new_day.sql
        dependencies=2_1_data_clean_startuplog
        
    2. 昨日周新

      • 编写sql脚本

        [stat_new_week.sql]

        use big12_umeng ;
        create table if not exists stat_new_week(
            day string ,
            appid string,
            appplatform string,
            brand string ,
            devicestyle string,
            ostype string ,
            appversion string ,
            cnt int
        )
        ROW FORMAT DELIMITED
        FIELDS TERMINATED BY ','
        lines terminated by '
        ';
        
        insert into table stat_new_week
        SELECT
          appid ,
          appversion ,
          appplatform,
          brand ,
          devicestyle,
          ostype ,
          sum(cnt) cnt
        FROM
          stat_new_day
        WHERE
          formatbyweek(day ,'yyyyMMdd' , 0 , 'yyyyMMdd') = formatbyweek('${ymd}' ,'yyyyMMdd' , 0 , 'yyyyMMdd')
        group by
          appid ,
          appversion ,
          appplatform,
          brand ,
          devicestyle,
          ostype
        
      • 编写shell脚本,调用sql脚本

        [stat_new_week.sh]

        #!/bin/bash
        cd /home/centos/big12_umeng
        spark-submit --master yarn --jars /home/centos/big12_umeng/umeng_hive.jar umeng_spark.jar com.oldboy.umeng.spark.stat.StatNewWeek $1 `cat _time | awk -F '-' '{print $1$2}'`
        
      • 编写job文件

        [3_3_stat_new_week.job]

        type=command
        command=sh /home/centos/big12_umeng/stat_new_week.sh /home/centos/big12_umeng/stat_new_week.sql
        dependencies=3_2_stat_new_day
        
    3. 昨日月新增

      略。

    7.1.4 导出统计结果到mysql
    1. 编写sqoop脚本

      [export_hive_stat_act_day_to_mysql.sh]

      sqoop-export --driver com.mysql.jdbc.Driver --connect jdbc:mysql://192.168.231.1:3306/big12 --username root --password root --columns   day,appid,appplatform,brand,devicestyle,ostype,appversion,cnt --table stat_act_day --export-dir /user/hive/warehouse/big12_umeng.db/stat_act_day -m 3
      
    2. 编写job文件

      [4_1_export_hive_stat_act_day_to_mysql.job]

      type=command
      command=/home/centos/big12_umeng/export_hive_stat_act_day_to_mysql.sh
      dependencies=3_1_stat_act_day
      
    7.1.5 结束job
    1. 编写job文件

      [end.job]

      type=noop
      dependencies=4_1_export_hive_stat_act_day_to_mysql,
      

    8.2 打包job文件到一个zip中

    $>cd /home/centos/umeng/job
    #将当前所有文件打成1.zip文件
    $>zip 1.zip *
    

    8.3 1.zip文件内容如下

    azkaban-009

    9、上传zip文件

    9.1 点击上传按钮

    azkaban-007

    9.2 选中zip文件

    azkaban-008

    9.3 查看上传结果

    azkaban-010

    9.4 展开job,查看依赖关系

    azkaban-011

    10、job的执行与调度

    job在上传之后,可以单独执行某个job,带依赖关系也可以不带依赖关系。执行通常用来测试,测试通过后就可以进行调度作业。

    10.1 job执行

    10.1.1 展开job的依赖列表

    azkaban-012

    azkaban-013

    10.1.2 执行无依赖job

    azkaban-014

    azkaban-015

    10.1.3 执行有依赖job

    azkaban-016

    azkaban-017

    10.1.4 执行无依赖job
  • 相关阅读:
    二进制包安装MySQL数据库
    前端0:js,css基础
    前端2:工作涉及的问题及总结
    前端1:易混肴的前端知识,常用的方法或questions,及一点想法。
    微信小程序-上传多张图片加进度,持续修正中……
    JS 函数式编程
    敏捷开发总结
    数据绑定
    收藏
    transform,translate,transition 的区别
  • 原文地址:https://www.cnblogs.com/SteveDZC/p/13593989.html
Copyright © 2011-2022 走看看