数据仓库系统是以面向主题,面向决策的数据存储为基础,在企业内部实现的从数据采集,处理,存储到决策支持的
端到端的解决方案。
什么是元数据?
元数据 Metadata 可以定义为描述应用系统或业务流程中数据结构或意义的数据或文档,是关于数据的数据。
在数据仓库系统中,元数据可以分成两类:
技术元数据和业务元数据。
技术元数据是存储关于数据仓库系统技术细节的元数据,主要包括以下信息
业务元数据时保证用户能正确,方便的使用数据仓库系统所必需的,主要用来提供介于使用者和实际系统之间
的语义层,包括如下信息
为什么需要元数据
元数据是进行数据集成所必需的
数据仓库的集成性就是将不同时间,不同地点,不同系统中的数据采集,整理并且按照一定的模式存储在数据仓库中。
这个过程所必需的时间,地点信息,原始数据和数据仓库中数据的对应关系以及校验,转换,过滤的规则等都存放在
元数据库中。
元数据是实现应用程序间的数据通信,避免“自动化孤岛”所必需的
元数据是用户实现数据检索和数据挖掘所必需的
元数据提供了数据访问的入口,就像图书馆中的目录一样。每次用户或系统要查找输入仓库中的数据时,
首先要根据某种标志在元数据中找到该数据的存放位置,再进一步找到希望的数据。
元数据定义了语义层,实现了业务模型和数据模型之间的对应
在企业当前的信息系统中,使用者往往不能充分利用系统所提供的数据。
一个很重要的原因就是这些数据不能以使用者理解的形式表示出来,不能期望用户像
系统开发者那样去了解数据库的结构。
元数据实现了业务模型和数据模型之间的映射,因而使数据能够像用户所希望的样子表现出来。
这样的一个语义层极大的优化了用户界面,非常有助于数据向信息,知识的转化。
元数据有助于实现柔性的信息系统,能够适应企业不断变化的需求
如何构造元数据?
在数据仓库系统中构造元数据主要需要完成两个方面的工作。
建立元数据模型和元数据管理系统。
建立元数据模型:元数据主要是存储企业的业务模型和数据模型,所面临的最主要问题就是如何定义这些模型,
使这些模型具有良好的通用性,可扩展性和可重用性。
元数据管理系统:元数据管理系统主要完成两部分的工作
1. 维护员数据的物理存储
2. 提供定义,修改,访问元数据的接口和工具