zoukankan      html  css  js  c++  java
  • kettle背景知识——ETL

    抽取(Extract) :一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分

            看上去简单而琐碎,实际上是ETL解决方案的成功实施的一个主要障碍。

    转换(Transform):任何对数据的处理过程都是转换。这些处理过程通常包括(但不仅限于)下面

             的操作:

              移动数据(从一个地方将数据移动到另一个地方)

              根据规则验证数据(符合规则入库或怎样处理,不符合规则则通过其他方式继续验证或进行修复,把不符合规则的数据变得符合规则)

              数据内容和数据结构的修改(拆分字段合并字段)

              将多个数据源的数据集成

              根据处理后的数据计算派生值和聚集值(如报表等,根据已有数据计算的得出需要的数据)

    加载(Load):将数据加载到目标系统的所有操作(流加载或者SQL加载)

    ELT:先抽取,再加载,然后再转换

    EII:给用户提供数据接口

        

  • 相关阅读:
    模块 configparser subprocess 表格 的
    random, json, pickle, hashlib, hmac, shutil, shelve
    常用模块 1.时间模块 2.系统模块 3.项目开发目录规范
    GAN 教程记录
    matplotlib.pyplot展示MNIST图片
    机器学习算法辨别
    命令
    搭环境
    不对称分类的错误评估
    入侵检测数据集
  • 原文地址:https://www.cnblogs.com/zrc-study/p/6575032.html
Copyright © 2011-2022 走看看