PS:今天上午,非常郁闷,有很多简略基础的问题搞得我有些迷茫,哎,代码几天不写就忘。目前又不当COO,还是得用心记代码哦!
在数据集市计划中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区分在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响观点计划的方法。
数据驱动方法包括:基于实体-关系模式的计划、基于关系模式的计划、基于XML模式的计划。观点型实体-关系模式比关系型逻辑模式更具表达力。因此通常以为前者是更好的计划源。但实际情况是公司经常没法供给精确完整的实体-关系模式(丧失、文档不完整或者其他原因)。那么就只能根据数据库的逻辑模式来做。另一方面,Web数据大部份是XML格式的,基于XML模式的计划可以从XML源的模式派生一个数据集市观点模式。
1 数据驱动方法计划
1.1 基于实体-关系模式的计划
在数据集市的符合维度事实模型(DFM)的观点计划中使用的基于实体-关系模式的技术包括以下步调:
(1)定义事实。
(2)对于每个事实:
a. 建立一个属性树。
b. 修剪和移植属性树。
c. 定义维度。
d. 定义度量。
e. 创立事实模式。
首先从数据源模式中选择相关事实。然后以半自动模式创立属性树。这是一个过渡结构,可用于肯定事实模式的边界以清除不相关属性及修改链接到这些不相关属性的依赖关系(对应步调(2).b)。属性树链接了数据集市和数据源模式。这个链接是数据准备过程的症结。之后将属性树转换为事实模式(步调(2).e)就相对简略了。其中,步调a基于一种算法;步调cde基于属性的目标特性;步调1和b须要深刻懂得公司的商业模型。
1.1.1 定义事实
事实通常对应于公司中动态发生的事件。在实体-关系模式中,事实可能对应着一个实体或者E1,E2,...,En实体间的n元关系R。对于后者,为简便起见,可将R转换为一个实体(实体化过程)。为此,添加一个新实体F,并使用F和Ei间的二元关系(Ri)替换R的每个分支。若使用min(E, A)和max(E, A)分别表示最小基数品级和最大基数品级(基数品级是指实体E在相应品级上介入关系A,通常min(E, A)∈{0, 1},max(E, A)∈{1, n}),则:min(F, Ri) = max(F, Ri) = 1, min(Ei, Ri) = min(Ei, R), max(Ei, Ri) = max(Ei, R)。
注意:有时不同的实体可能是表达集体事实的候选。提议选作事实的实体应该是构建包括尽可能多的属性的属性树的实体。
1.1.2 构建属性树
属性树
给定实体-关系数据源模式的一个相关部份,以及它的一个被分类为事实的实体F,属性树是满意以下要求的树:
- 每个节点对应于一个数据源模式属性(简略或复合属性)。
- 根对应于F实体的标识符。
- 对于每个节点v,对应的属性通过函数决议了对应于v的后继的所有属性。
1.1.3 修剪和移植属性树
1.1.4 定义维度
1.1.5 定义度量
1.1.6 生成事实模式
1.2 基于关系模式的计划
1.3 基于XML模式的计划
2 混合方法计划
3 需求驱动方法计划
参考资料:
《数据仓库计划:现代道理与方法》Matteo Golfarelli,Stefano Rizzi著
文章结束给大家分享下程序员的一些笑话语录:
开发时间
项目经理: 如果我再给你一个人,那可以什么时候可以完工?程序员: 3个月吧!项目经理: 那给两个呢?程序员: 1个月吧!
项目经理: 那100呢?程序员: 1年吧!
项目经理: 那10000呢?程序员: 那我将永远无法完成任务.