zoukankan      html  css  js  c++  java
  • DataWorks使用小结(一)——概述

    一、概述

      DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发、管理界面

      1.功能概述

        1.强大调度:支持分钟到月的调度

        2.多种任务:支持ODPS、SHELL等多种任务

        3.可视化开发:B/S架构的可视化开发界面,简单易上手

      2.基本概念

        1.任务

          0个或多个表作为输入,1个或多个表作为输出。主要分为节点任务、工作流任务、内部节点

        2.实例

          某个任务某个时刻的运行快照

        3.提交

          提交的任务会到调度系统(不提交的不能加入调度系统)

        4.资源和函数

          俗称的JAR、UDF

      以上都可在DataWorks中找到:

        

        // 因版本差异可能不同,此处是在左上

    二、基本开发流程

      主要包括:建表上传数据->创建工作流->创建同步任务->创建周期和依赖->运维日志排错

      1.建表上传数据

        在任务开发中新建一个节点任务,写入DDL建表语句,运行即可完成建表,通过找表即可找到新建的表:

        

        // 各个版本DataWorks可能稍有不同

      数据同步任务,将在下节详述

      2.创建工作流

        创建任务时选择工作流任务即可创建工作流:

        

        一般而言会创建一个虚节点用于做控制节点,虚节点对运行数据不产生任何影响,仅用于对下游节点的控制,一般而言,虚节点作为根节点控制整个工作流

      3.创建同步任务

        注意RDS等数据源需要添加白名单等(ECS添加安全组)

        首先需要项目管理员新建数据源:

          新版DataWorks是在数据集成中新建,老板的在项目管理中:

          

        新建的数据同步在新版中是数据集成的左上角,老板的需要在新建任务时选择任务类型:

        

        // 底层核心应该是DataX

        简单起见,可以用向导模式,可视化同步数据

      4.配置周期和依赖

        双击打开任务后,在页面右侧点击任务属性即可配置(新版略有不同):

        

        即可配置周期调度以及依赖属性了,当有依赖任务时必须等待上游任务跑完才能执行(即使本身已到运行时间)

      5.运维日志管理

        可以通过运维中心查看任务,右击即可管理查看

  • 相关阅读:
    TCP协议中粘包现象
    python 中socket模块及用法
    网络编程之五层协议
    面向对象的反射和双下方法(魔术方法)
    Centos下的redis安装和使用
    面向对象简介
    supervisor进程管理工具
    redis的持久化
    redis的主从同步及哨兵的用法
    ubuntu修改grub默认启动项
  • 原文地址:https://www.cnblogs.com/jiangbei/p/9536798.html
Copyright © 2011-2022 走看看