zoukankan      html  css  js  c++  java
  • etl

    ETL是BI项目重要的一个环节。ETL设计的好坏直接关接到BI项目的成败, 一般会花掉整个项目至少1/3的时间。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。    

    ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

    数据抽取:

    数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。

    这一阶段是数据收集阶段,一般会了解需要什么数据,数据从何而来,从数据库等数据存储中组织数据,

    1、数据源与目的源系统数据源一样,使用DBMS链接数据库,使用select查询所需数据

    数据的清洗转换:

    时间最长,一般占2/3 

    数据清洗:过滤脏数据和不完整数据,例如不完整的数据(只有编码,没有名称),错误的数据(数据不符合要求,数字中字符,数字长度过长),重复数据(记录、确认),这类数据一般都需要与客户确认,在决定如何做

    数据转换:进行一些业务规则的计算和聚合,不一致数据(例如字典不同),数据粒度转换,商务规则转换

    数据的加载:直接写入DW(Data Warehousing,数据仓库)中

  • 相关阅读:
    rac启动维护笔记
    cache-fusion笔记
    RAC配置笔记
    记一次异机rman还原后的操作
    索引小结
    DBlink的创建与删除
    小说经典语录
    SQL通配符
    ArrayList集合详解
    Oracle数据库四种数据完整性约束
  • 原文地址:https://www.cnblogs.com/xiayule/p/etl.html
Copyright © 2011-2022 走看看