zoukankan      html  css  js  c++  java
  • 在hue平台上使用oozie工作流调度

      在实习期间,公司使用的hue平台做的数仓,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度

    进入hue首页:

      

    Workflow是工作流,Schedule是调度工作流的,如设置工作流何时跑,周期是多久,等等,下面会详细介绍,Bundle是绑定多个调度,暂时我没有用上

    等使用后再更新

    上面有一栏,有hive,hive2,spark,java,shell等等,直接拖入到Drop your action here这个阴影框中即可

    下面的都以hive2为例,

    选择文件添加即可,同时下面还有很多选项

     友情提示,虽然已经选择了文件,但是我建议还是在选择一次,右边的是添加文件依赖,

    左边是参数设置,比如工作流按时间跑,设置是时间等等,根据需求设置即可

      

    工作流建立完成之后,单个脚本或者代码可以单独执行,进行测试,再右上角

    或者整个工作流进行运行,也是在右上角

    这是工作流的配置,下面讲调度

    进入调度

    选择一个workflow工作流

    注意hue,oozie是有时区的设置的,默认是零时区时间,换成东八区时间要+8小时,设置配置时间同步

    由于公司没有设置,所以是在建立调度上自己注意的,这里的时间都是零时区的时间

    可以按小时,天,周,月,年进行定时调度

     因为是今天跑昨天的数据,所以数据是昨天的,时间要减,因为是零时区的时间和东八区的时间差了8个小时,所以减了16个小时

    下面的是输入文件,起到标识作用,有了这个文件任务才能启动,也是一种依赖文件

    还有一种情况

    如果是周计划,或者月计划,需要依赖多个,如7个,30个文件,不可能一一配置

    选择上面的range,-6代表从任务执行的是时间-6,因为时区原因,如果是星期一启动任务,则到了上周星期一,0到了上周日

    这是跑周计划中依赖一周的文件,其他情况可以参考上面的,可能会一些时区或者平台的问题有一些出入,配置根据具体情况而定

    任务运行后可以查看执行情况:在右上角,

    自己选择查看类型,里面也有日志,执行task,执行参数,时间等等

  • 相关阅读:
    linux资源监控命令详解
    c语言入门教程 / c语言入门经典书籍
    Hive存储过程实现-hpsql
    Hive集成mysql数据库
    Hive安装与配置
    Hbase shell操作总结(2)
    Hbase shell操作总结(1)
    Hbase 原理介绍
    Hbase的安装与配置
    Zookeeper工作原理(详细)
  • 原文地址:https://www.cnblogs.com/lrxvx/p/10535907.html
Copyright © 2011-2022 走看看