BI分析的基石:结构良好的数据仓库设计
数据的两种形式:操作数据和分析数据
企业中使用的数据可以分为两类:操作数据和分析数据。这两种数据都可以存储在DBMS中进行管理。他们的组织形式实际上源于并作用于两种系统:操作型系统和分析型系统。
企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境。操作型系统根据其特点也称为联机事务处理(OLTP),存储操作数据,称为数据库。分析型系统也称联机分析处理(OLAP),一般把存储分析数据的数据库称为数据仓库。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。
由于数据库系统和数据仓库系统在硬件利用率上的差异,我们难于在同一台服务器上既进行优化操作型处理,又进行优化分析型处理,因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。
数据仓库设计的方法论
传统的关系数据库一般采用二维数据表的形式来表示数据,以维是行,另一维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。
数据仓库是多维数据库,它扩展了关系数据库模型,以星型架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但是不管是哪一种架构,维度表、事实表和事实表中的度量都是必不可少的组成元素。
数据集市是在构建数据仓库的时候经常用到的一个词汇。如果说数据仓库是企业范围的,收集的是关于整个组织的主题,如顾客、商品、销售、资产和人员等方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如之包含销售主题的信息,这样数据集市只对特定的用户是有用的,起范围限定于选定的主题。
宏观上的数据仓库设计分为以下三个大阶段:规划分析阶段、设计实施阶段、使用维护阶段。这三个阶段是循环运动过程。规划分析阶段包括:规划与确定需求、开发概念模型、开发逻辑模型;设计实施阶段包括:设计体系结构、数据库与元数据设计、数据抽取转换与加载、开发中间件、填充与测试数据仓库;使用维护阶段包括:数据仓库应用、数据仓库维护和数据仓库评价。
二种创建数据仓库的模式
创建数据仓库的方式,根据其出现的先后顺序,主要分为2种模式:自顶向下(TOP-down),自底向上(Bottom-up).
自顶向下(TOP-down):这种模式首先把OLTP数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方式推进各个数据集市中,其优点在于:
1、数据来源固定,可以确保数据的完整性。
2、数据格式与单位一致,可以确保跨越不同数据集市进行分析的正确性。
3、数据集市可以保证有共享的字段。因为都是从数据仓库中分离出来的。
自底向上(Bottom-up):这种模式首先将OLTP数据通过ETL汇集到数据集市中,然后通过复制的方式提升到数据仓库中,其优点在于:
1、由于首先构建数据集市的工作相对简单,所以容易成功。
2、这种模式也是实现快速数据传送的原型。