什么是ods?什么是操作型数据存储?ods的定义是什么?ods的特点?
ods是用于支持企业日常的全局应用的数据集合,保存在ods中的数据有一下4个特点:面向主题、集成的、可更新的,数据是当前或接近当前的。
ods 的功能是什么?实现机制是什么?
1.在ods上可以实现企业级的oltp
2.在ods上可以实现即时的olAp
什么是分析型或者全局或者企业级OLTP?
所谓"企业级OLTP",是指在实际数据处理中,一个事务同时涉及多个部门的数据。
为什么要引入ODS?(可以用ods的功能回答)
是因为存在着类似于像企业级的OLTP或者即时OLAP这样的操作,把这样的操作放在数据库里或者数据仓库里面去做都不合适,所以就引入了一个新的层,叫OPDS。
什么是即时OLAP?
希望能够快速返回或者快速响应的联机分析处理。
OLTP和OLAP的差别
什么是操作型处理模式?什么是信息型处理模式?
操作型处理模式,只有查询操作的工作模式。
信息型处理模式,含有更新操作的工作模式,
ODS中存在一个动态切换开关,在需要进行操作型处理模式时,提供操作型处理模式的环境;在需要信息型处理模式时,可以切换到信息型操作模式做需要的环境。
什么是分层ODS?
有多个分层ODS分层,有总公司的分层ODS,有分公司的ODS
放在(操作数据存储)ODS和数据仓库(DW)中的数据有什么差别?
操作数据存储(ODS) | 数据仓库(DW) |
当前的或者接近当前的数据 | 历史数据 |
细节数据 |
细节数据和综合数据 |
可联机更新 |
不可变快照 |
在将数据源的数据加载到数据仓库前需要完成哪些工作?
需要完成ect的工作, 抽取、清洗、转换
在三级体系结构中ODS和数据仓库中存在着哪两级记录系统?
数据仓库中的数据有哪些?
数据仓库中的数据:业务数据和元数据
粒度的概念?
粒度分为两种形式:第一种粒度是对数据仓库中数据的综合程度高低的一个度量。另一种粒度是样本数据库。
什么数据分割、分片?
数据分割是指,将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片(分割之后的)。
捕捉变化数据的四种途径 :时标方法、delta文件、前后快照文件的方法、日志文件。
元数据的定义?什么是数据仓库中的元数据?
元数据是描述数据的数据。
数据仓库中的元数据是对数据仓库的中的数据进行描述的数据。
元数据的内容?
元数据的分类有哪些?
按照用户分:技术元数据、业务元数据
按照来源分:正式元数据、非正式元数据
OLAP的四个特点?
快速性、可分析性、多维性、及时性
olap和oltp有什么异同?
oltp数据 | olap数据 |
原始数据 | 导出数据 |
细节性数据 | 综合性或提炼性数据 |
当前数据 | 历史数据 |
可更新 | 不可更新,但周期性追加和刷新 |
一次处理的数据量小 | 一次处理的数据量大 |
面向应用,事物驱动 | 面向分析,分析驱动 |
面向操作人员,支持日常操作 | 面向决策人员,支持管理需要 |
多维数据模型有哪些核心概念?
维,维成员,维层,维层次,维属性,度量,数据方体,数据单元
什么是维、维成员、维层、维层次、维属性、度量、数据方体、数据单元?
维:人们观察数据的特定角度。维由维成员构成。
维成员:维的一个取值称为维的一个成员。
维层:人们观察数据时,除了从特殊的角度去观察外,还需要从不同的细节程度去观察。这些不同的细节程度就称为不同的维层。例如:时间维、日、月、季度时不同的细节。
维层次:维层中可以有很多分类方法,每种分类方法叫做一个层次。
维属性:维成员具有的特征。
度量:度量是要分析的目标和对象。
数据方体:多维数据模型构成的多维数据空间称作数据方体。一个数据方体由多个维和度量组成。。
什么是多维数据模型?
多维数据模型主要研究多维数据的抽象表示问题。
什么叫星形模型?什么是雪片模型?举例说明什么是星形模型?
星形模型是多维数据模型的基本结构,通常由一个很大的中心表和一组较小的表组成。例如:50页,图4.6
雪片模型:雪片模型也称雪花模型,是对维表规范化后形成的。
事实群模型:由多个事实表和多个维表构成;一个维表可以背多个事实表构成。
常用的数据模型是什么?他们之间有什么差异?
星形模型、雪片模型、事实群模型。
差异:星形模型不支持维的层结构,所以引入的雪片模型,(雪片模型更好地体现了维的层结构,)需要支持多个事实表,所以引入了事实群模型。
多维分析基础:聚集
聚集函数可以分为三类:分布型、代数型、整体型
分布型聚集函数:具有可以累计的特性。例如sum(求和)函数;
代数型聚集函数:如果一个函数可以由若干个分布型函数进行代数运算得出,则说明该函数是代数型聚集函数。例如求平均;
整体性聚集函数:不能用其他函数进行代数运算得出;例如中间数函数。
常用的多维分析操作有哪些?
常用的多维分析操作有:切片、切块、旋转、下钻、上卷
切片:在数据方体的某一维上选定一个维成员的动作;
切块:在数据方体的某一维上选定某一区间的维成员的动作;
旋转:改变数据方体维的次序的动作;
下钻:在某个分析的过程中,用户可能需要从更多的维或者某个维的更细层次上来观察数据,这时可以通过下钻来进行更深入的分析。
上卷:与下钻相反的操作类型。下钻是为了看到更细的数据,上卷是为了看到更粗的数据。
请举例说明常用的多位分析操作有哪些?(要举个例子)
多维查询语言用什么?
多维查询语言用MDX。
MDX和SQL的区别是什么?
MOLAP多维数据存储的优点
表达清晰,占用存储空间少 ;查找速度快,维护代价小;有利于多维计算
缺点:最大的缺点是数据稀疏问题
ROLAP优缺点
可以有效地处理海量数据;涉及大量昂贵的连接运算、查询速度慢,必须采用预结算索引等技术加以克服。
什么是数据方体的预计算?为什么要进行数据方体的预计算?什么是数据压缩?为什么要进行数据方体的压缩?什么是数据方体的维护?为什么要进行数据方体的维护?(要自己总结)
75页例子看看懂
什么是数据方体格结构?什么是数据方体格?
是一个有向图,图中的每个节点表示一个cubiod,图中的每条边表示节点之间的导出关系。
什么是导出关系?
如果cuboidA是由cuboidB通过减少维的个数得到的,则称cuboidA可以cuboidB导出
什么是数据方体的缩减技术?为什么要进行数据方体的缩减?
因为随着维数的增加和事实表的增大,数据方体中的数据单元的个数将呈”爆炸式“增加,要存储下所有的这些数据单元几乎是不可能的,所以要进行数据方体缩减。
怎么进行缩减 采用一种特殊的数据压缩手段,将整个数据方体存储下来,从而为高效率的查询处理提供了支持。其主要思想是按照
数据方体的索引技术
数据仓库中的索引有哪些?
在数据仓库环境下,通常采用两种类型的索引:树索引和位图索引
R树索引和B树索引的主要区别是什么?
R树是多维的,B数是单维的
举例说明简单位图索引的创建过程;举例说明简单位图索引的使用过程;
简单的bitmap索引 P99 6.5看明白了答上
P100 当有用户要查询,类似于xxxx怎么去处理
什么是projection索引(2021年3月底题库考试)?
projection索引的思想非常简单,它将某个表的某一列以相同的元组顺序冗余存储。这样做的好处是,查询时如果不需要的话可以不读取其他列的值。
什么是数据方体的维护?为什么要进行数据方体的维护?
当数据源中的数据发生变化以后,需要将这些变化反应到数据方体中。如果数据方体中的部分视图进行了实体化,则需要对这些实体化视图进行维护。如果数据方体存储时采用了某种缩减结构,则需要将变化反应到这些缩减结构中,因为你有更新了,有更新就必须要有维护。
计算题:会算 支持读、置信度、频繁相集、关联规则 apriori算法