ETL是做什么的?
ETL是建立数据仓库是数据抽取转换加载的过程。
ETL工作的实质就是从各个源数据表中提取数据,对数据进行转换,最终加载填充到数据仓库维度建模后的表中的一个过程。
只有当这些维度/事实表被填充好,ETL工作才算完成。
数据仓库和数据库有什么区别?
数据仓库是面向分析的,而操作性数据库是面向应用的。
三个过程的大致意思:
1:抽取(Extract)
数据抽取阶段主要是根据数据仓库的主题,主题域确定需要从应用数据库中提取的数据,并不是所有的用于支撑业务系统的数据都有拿来分析的必要。
2:转换(Transform)
转换步骤主要是指对提取好了的数据的结构进行转换,以满足目标仓库的模型的过程。转换过程也负责数据质量工作,被称为数据清洗。
3:加载(Load)
加载过程就是将已经提取好了,转换后保证了数据质量的数据加载到目标数据仓库。
加载分两种L:首次加载和刷新加载。其中受刺加载会涉及到大量数据,而刷新加载则属于一种微批量式的加载。
数据集市
什么是数据集市?
数据集市可以理解成为一种‘小型数据仓库’,它只包含单个主题,并且关注范围也非全局。
数据集市可以分为两种:一种是独立数据集市,这种数据集市有自己独立的源数据库和Etl架构。
另一种是非独立数据集市,这种数据集市没有自己的源数据系统,它的数据来自数据仓库。
当用户不需要用到整个数据仓库的数据时候,非独立数据集市就可以简单为用户提供一个数据仓库的'子集'
数据仓库的几种建模技术。
1.关系建模 2.ER建模 3.维度建模
维度建模是专门用于分析型数据库、数据仓库、数据集市的建模方法
维度建模的三种模式:星形模式,雪花模式,星座模式
星形模式:一个事实表关联多个维度表,样子像星星一样。
雪花模式:在星形模式的基础上将一个或多个大的维度表拆分成多个小的维度表维度表和维度表之间关联,样子像雪花一样。
星座模式:前两种模式都是单事实表的,星座模式中可以有多张事实表和维度表之间关联。
数据仓库建模体系
所谓“数据库仓库建模体系”就是指数据仓库从无到有的一套建模方法,也可以称作数据仓库建模方法。最常见的有三种数据仓库建模方法分别是:规范化数据仓库、维度建模数据仓库、独立数据集市
规范化数据仓库:基于规范化设计的分析型数据库,为各部门建立数据集市。首先对ETL得到的数据进行ER建模、关系建模,得到一个规范化的数据库模式,
然后用这个中心数据库为各部门建立基于维度建模的数据集市。各部门开发人员大都从这些数据集市提取数据,通常不允许直接访问中心数据库.
维度建模数据仓库:该建模体系首先设计一组常用的度集合,然后创建一个大的星座模型表示所有的分析型数据,如果这种一致维度不满足某些数据分析要求,自然也可以在数据仓库之上继续构建新的数据集市
独立数据集市:独立数据集市的建模体系是让公司各部门/组织自己创建并完成ETL,自己维护自己的数据集市. 从技术上来讲这是一种很不值得推崇的方式,因为将使信息分散,影响了企业全局范围内数据分析的效率。
此外,各组织之间的ETL架构相互独立无法复用,也浪费了企业的开发资源。然而出于某些公司制度及预算方面的考虑,有时也会使用到这种建模体系。