数仓架构
老生常谈
一个数据仓库是一个统一的架构下组织不同数据源的异类集合。有两种构建数据仓库的方法:解释自上而下的方法和自下而上的方法。
1.自上而下的方法:
基本组件讨论如下:
- 外部源–
外部源是从中收集数据的源,与数据类型无关。数据也可以是结构化,半结构化和非结构化的。 - 阶段区域–
由于从外部源提取的数据没有遵循特定的格式,因此需要验证此数据以加载到数据仓库中。为此,建议使用ETL工具。- E(提取):从外部数据源提取数据。
- T(转换):数据转换为标准格式。
- L(加载):将数据转换为标准格式后,将其加载到数据仓库中。
- 数据仓库–
清除数据后,将其作为中央存储库存储在数据仓库中。它实际上存储元数据,而实际数据存储在数据集市中。请注意,数据仓库以这种自顶向下的方法以最纯粹的形式存储数据。 - 数据
集市–数据集市也是存储组件的一部分。它存储由单个权限处理的组织特定功能的信息。一个组织中取决于功能的数量可以有很多。我们也可以说数据集市包含存储在数据仓库中的数据子集。 - 数据挖掘–
分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法查找数据库或数据仓库中存在的隐藏模式。Inmon将这种方法定义为–数据仓库作为整个组织的中央存储库,并在创建完整的数据仓库之后从中创建数据集市。
2.自下而上的方法:
- 首先,从外部来源提取数据(与自顶向下方法相同)。
- 然后,数据通过暂存区域(如上所述)并装入数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它涉及单个业务领域。
- 然后将这些数据集市集成到数据仓库中。
Kinball提供了这种方法,因为–首先创建了数据集市,并在创建完整的数据集市之后为分析提供了一个简单的视图并创建了数据仓库。