zoukankan      html  css  js  c++  java
  • kettle组件-流程

    1:空操作
       该操作什么都不做,主要作用是,想测试的时候充当一个占位符。
       例如:两个文本文件输入,同时连接到流查询步骤中,但是流查询仅仅能从一个流中查询信息,所以可以在同时连接流查询之前,
                 将两个文本文件输入连接到空操作,然后再让空操作去连接流查询。
             空操作组件具有合并记录的作用。
    2:过滤记录
       该步骤通过条件和比较符来过滤记录。
       发送ture数据给步骤:指定条件返回true的数据将发送到此步骤
       发送false数据给步骤:指定条件返回false的数据将发送到此步骤。
       true和false步骤必须指定。
     条件:
            条件中可以字段和字段间进行比较,也可以字段和某一固定的值进行比较。
            条件一开始的NOT选项是干什么?
    3:追加流
       这个步骤将一个步骤中的数据流追加到另一个步骤中。
       前:待追加的数据流。
       后:追加到的数据流。
    4:阻塞数据直到步骤都完成
       kettle中转换和作业的执行顺序----
       1:一个作业内的转换是顺序执行的。
       2:一个转换中的步骤是并行执行的。
       3:作业内不支持事务,转换内支持事务。
     根据业务需要,通常需要在转换内顺序执行,小技巧如下:
       1:执行sql是优先于所有步骤的。
       2:使用阻塞数据直到步骤都完成,确保其他数据步骤都完成再执行下一步。
     事务:
       1:设置转换只使用一个事务。转换设置---》杂项---》使用唯一连接
       2:设置转换内的表插入等数据库操作不进行批量提交。“提交记录数量”--》0
     阻塞数据直到步骤都完成:
       当抽取10个表数据的时候,我们希望先抽取小表,然后最后再执行大表。但是kettle转换的步骤是并行执行的,
      这样有可能会出现报错,比如经常报“数据连接异常关闭”等报错,并行执行会消耗大量资源,也会导致抽数的
      时候抽到一半未成功的情况。这时我们就可以使用kettle的阻塞数据直到步骤都完成 来设计数据表的抽取。
      当执行完ods_dept步骤的时候,才去执行ods_BONUS步骤,然后再ods_BONUS步骤完成后才去执行ODS_EMP步骤。
     组件介绍:
       监视下面的步骤----》步骤名称表示需要等待执行完成的步骤名称。
     
     
     
     
     
  • 相关阅读:
    实验6.1
    SOA
    python的镜像包安装
    中文分词:双向匹配最大算法(BI-MM)
    从github中获取代码
    解决文件冲突
    创建分支
    上传本地文件到github
    mysql事务
    查询练习2
  • 原文地址:https://www.cnblogs.com/zja001/p/10084451.html
Copyright © 2011-2022 走看看