1. 引言
元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建,管理,维护和使用数据仓库系统的核心部件。
2. 基础知识
2.1 元数据的定义
元数据是指来自企业内外的所有物理数据和知识,包括物理数据的格式,技术和业务过程,数据的规则和约束以及
企业所使用数据的结构。
元数据其实就是知识,包括系统,业务和市场的知识。
2.2 元数据的作用
元数据处于数据仓库的上层,记录数据仓库中对象的位置,是内部技术人员开发与维护数据仓库的蓝图,是内部技术
人员开发与维护数据仓库的蓝图,是业务中用户导航数据仓库以及定位有用信息的路标。
数据仓库系统获取,共享和管理元数据主要有两个目的
1. 作为描述性信息,描述系统的结构特征和静态特征
2. 作为控制性信息,控制并配置特定工具和进程运行,实现数据仓库管理和维护的(半)自动化管理
元数据机制主要支持以下 5 类系统管理功能:
1. 描述哪些数据在数据仓库中
2. 定义要进入数据仓库中的数据和从从数据仓库中产生的数据
3. 记录根据业务事件发生而对峙进行的数据抽取工作时间安排
4. 记录并检测系统数据一致性的要求和执行情况
5. 衡量数据质量
元数据起到的作用
1. 用于集成各类复杂繁多的信息
2. 其定义的语义层可以帮助最终用户裂解系统中存储的数据
3. 可以支持需求动态变化,系统各项表现(界面)的灵活性
4. 可以提高和保证数据的质量
5. 可以支持多种工具的开发应用
6. 提高系统的安全性
7. 可以提高系统的智能性
2.3 元数据分类
2.4 元数据的标准化
OMG 在 2000 年发布了公共仓库元模型 CWM (Common Warehouse Metamodel) 规范。
主要目的是在异构环境下,帮助不同的数据仓库工具,平台和元数据知识库进行元数据交换。
CWM 模型既包括元数据存储,也包括元数据交换,它是基于以下 3 个工业标准制定的。
- UML。它定义了表示模型和元模型的语法和语义,对 CWM 模型进行建模
- MOF 元对象设施
- 它是 OMG 元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口
- 为构造模型和元模型提供了可扩展的框架,并提供了存取元数据的程序接口
- XMI XML元数据交换。它可以使元数据以 XML 文件的方式进行交换,大大增强了 CWM 的通用性
OMG 元数据知识库体系结构如下图所示
3. 元数据管理的策略
要进行成功的元数据集成,必须建立一个一致且合理的管理策略,共享和重用指定目标和需求。
全局安全策略。
元数据是一个具有高敏感性和战略价值的信息财富,必须包含一个全面的安全策略来保证元数据得到充分保护
对每个元数据元素语义的一致理解。
软件组件所用到的每一种元数据元素的语义必须存在一致,这直接影响到元数据的共享和重用。
每个元数据的所有权。
必须确定哪些个体或哪些组件是一个特定元数据元素的最终所有者。要确保元数据的所有权最终属于元数据的
主要项目相关人员,而不是属于数据仓库的技术管理员或者开发者。
元数据元素的版本控制。必须为被管理的元数据设立专门的版本控制规则。
手工过程的消除机制和冗余元数据的消除机制。
任何依赖人工干预的元数据集成解决方案对整个数据仓库的投资回报率都有一个动态的负面的影响,
应该找出目前所有的手动过程,并提出一个最终能使它们自动的计划。
另外,必须尽量消除元数据冗余以最大程度共享和重用元数据