zoukankan      html  css  js  c++  java
  • 干货丨一组图详解元数据、主数据与参考数据

    [转载] http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm

    在数据资产管理领域,有着许多相似的概念和词汇。譬如说“数据管理”和“数据治理”,像孪生兄弟一样让人纠结不已。上周,与一个朋友聊起元数据、主数据和参考数据的关系是什么。这个话题我们足足聊了二十分钟。这三个概念我在一开始做数据管理相关工作的时候也纠结了挺久,于是我根据聊起来的内容稍稍总结了一下,就有了这篇文章,希望能给读者减少些许疑惑。

     

    http://www.cbdio.com/image/attachement/jpg/site2/20160216/3417eb9bbd90182d0c0356.jpg

    1、假设场景

    我们的假设场景先是这样的,现在正在为中国地理协会设计一个中国地理信息系统(当然真实的地理信息系统不会是这样,都说只是假设一下)。我现在正设计到“地市”这个对象。常说“千言万语不及一图”,这三者的关系咱们先上图。

     

    2、元数据--数据的数据

    元数据(meta-data)是描述企业数据的相关数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。

     

    例如在假设场景中,我们设计了地市表的数据模型(如上图红色框里面表示),地市表这个实体的数据模型如何进行定义正是元数据所关心的范畴。

    元数据可以说是企业的数据地图,它直接反映了企业中有什么样的数据,数据是如何存放的,例如,数据结构是什么样子,数据与业务之间的关系是怎么样,数据与数据之间的关系是怎么样,数据有什么样的安全需求,数据有什么样的存储需求。

    针对元数据的管理,对于传统企业数据而言是非常重要的一项管理挑战。因为传统企业技术和管理观念上有所缺失,从而导致了许多问题。因此,我们在进行许多传统企业数据治理或者数据管理项目,也就是元数据管理方面时,常常会先从数据模型梳理着手。

    3、主数据--企业黄金数据记录

    主数据(main data)主要是指经实例化的企业关键数据。

     

    还是回到我们的假设场景,我们在上面设计完成数据模型设计的“城市表”中填写了相应的城市数据,例如,北京、上海、广州、南宁等等。这些在城市表中填充的数据,正是组织中国地理协会的主数据,因为这些数据是中国地理协会这个组织的关键业务实体,它为组织的业务开展提供关联环境,而且它可能在企业业务开展过程中被反复引用。针对这些核心关键数据,组织和企业无论从数据的质量、一致性、可用性、管理规范等方面都应该有着最严格的数据要求。

    那么一般而言,以下涉及企业经营的人、财、物的数据最有可能纳入企业主数据管理的范畴,例如

    企业产品及其相关信息:包括企业相关产品、服务、版本、价格、标准操作等等

    企业财务信息:包括业务、预算、利润、合同、财务科目等等

    企业相关利益相关者:如客户、供应商、合作伙伴、竞争对手等

    企业组织架构:如员工、部门等

    可见,主数据就是企业被不同运营场合反复引用关键的状态数据,它需要在企业范围内保持高度一致。它可以随着企业的经营活动而改变,例如,客户的增加,组织架构的调整,产品下线等;但是,主数据的变化频率应该是较低的。所以,企业运营过程产生过程数据,如生产过程产生各种如订购记录、消费记录等,一般不会纳入主数据的范围。当然,在不同行业,不同企业对主数据有不同的看法和做法,正如我们与国内大型航空企业的实施相关数据项目时,也在为航班动态是不是主数据而纠结不已。

    因此,有鉴于主数据对于企业的重要性,企业和组织需要对其主数据进行有效的管理:包括理解主数据应用需求,识别主数据来源及源头,梳理主数据上下游关系,数据整合和发布,提升主数据的数据质量等。

    4、参考数据--数据的字典

    在本文引用的假设案例中,我们将会注意到刚才填写的地市这类数据有些列,如省份、城市类型等。如果没有缺少上下文的环境,我们是无法理解其具体含义,这时候我们往往引入参考数据(reference data)加以解释和理解,如下图红色标注所示。

     

    参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

    大家可能觉得,这所谓参考数据不就是数据字典吗?对,我们在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

    5、小结

    主数据则是真实的企业业务数据,是企业的关键业务数据。

    参考数据则是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

    元数据是对数据的描述,用于描述企业数据的所有信息和数据,如结构、关系、安全需求等,除增加数据可读性外,也是后续数据管理的基础。

    一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:

     

    作者简介:

    梁铭图,DAMS架构师精英群专家,新炬网络首席架构师。

    拥有十年以上数据库运维、数据分析、数据库设计以及系统规划建设经验。

    长期为国内电信运营商的大型IT系统进行系统软件维、数据架构规划、设计和实施以及大型IT系统数据建模工作,在数据架构管理以及数据资产管理方面有着深入的研究。

  • 相关阅读:
    赫尔维茨公式
    从解析几何的角度分析二次型
    Struts 1 Struts 2
    记一次服务器被入侵的调查取证
    契约式设计 契约式编程 Design by contract
    lsblk df
    Linux Find Out Last System Reboot Time and Date Command 登录安全 开关机 记录 帐号审计 历史记录命令条数
    Infrastructure for container projects.
    更新文档 版本控制 多版本并发控制
    Building Microservices: Using an API Gateway
  • 原文地址:https://www.cnblogs.com/seabird1979/p/5970774.html
Copyright © 2011-2022 走看看