ETL是BI项目重要的一个环节。ETL设计的好坏直接关接到BI项目的成败, 一般会花掉整个项目至少1/3的时间。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
数据抽取:
数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。
这一阶段是数据收集阶段,一般会了解需要什么数据,数据从何而来,从数据库等数据存储中组织数据,
1、数据源与目的源系统数据源一样,使用DBMS链接数据库,使用select查询所需数据
数据的清洗转换:
时间最长,一般占2/3
数据清洗:过滤脏数据和不完整数据,例如不完整的数据(只有编码,没有名称),错误的数据(数据不符合要求,数字中字符,数字长度过长),重复数据(记录、确认),这类数据一般都需要与客户确认,在决定如何做
数据转换:进行一些业务规则的计算和聚合,不一致数据(例如字典不同),数据粒度转换,商务规则转换
数据的加载:直接写入DW(Data Warehousing,数据仓库)中