zoukankan      html  css  js  c++  java
  • 什么是元数据

    1.元数据的概率

    元数据是对我们整个系统里面包含的各种结构的描述和说明,比如结构说明、属性说明、或者相关数据,它有点类似现实世界中我们使用的某个产品的说明书,它会对我们所使用的产品进行一个详细的介绍和功能说明。通过元数据,我们可以了解到我们整个系统的内部组成,从而对我们系统所拥有的各种结构进行一个量化的描述。比如我们系统有多少张表,这些表分别是什么含义,甚至细化到我们每个表字段,比如字段含义是什么,字段类型和长度是怎么样的,一些指标字段的含义又是什么。存储的位置和方式又是怎样的。

    通俗点讲就是元数据就是用来表述数据的数据,他最大的作用就是用来检索信息提供帮助。

    2.元数据的意义

    使用元数据能够更好的帮助我们管理企业系统,它是数据质量提升和数据治理的基础。通过元数据,我们能够更好的传承我们的系统,我们可以通过元数据让对系统不了解的人员或者新同事去快速了解我们整个系统的构成;通过元数据分类管理和检索,我们可以快速检索到关于系统任何方面想要了解的内容;元数据可以帮助我们理清数据的来龙去脉,从而让我们可以对问题数据进行跟踪,对指标数据来源口径进行追溯,对我们系统结构改动所造成的影响进行分析。

    3.什么是元数据管理

    这个详细内容可以参考http://science.china.com.cn/2016-10/25/content_9111493.htm

    通常一款元数据管理工具应具备元模型设计、元数据采集、元数据分析、数据地图展现等核心功能,我们试着改编小蝌蚪找妈妈这个故事,在改编的过程中理解这几个核心功能,前提是我们假设所有动物共同构成了一个庞大的数据体系,小蝌蚪们Mother的具体数据已经存在于此体系之中(鲤鱼系统、鳄鱼系统、乌龟系统)。

    1.元模型设计

    先解释一下元模型。如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,三者的关系如下图所示:

     再讲一下元模型设计的过程。首先获取到系统中的所有元数据,将这些元数据汇总并进行合理规划,进一步抽象成元模型,从一定角度来说,可以把这个抽象的过程看成元模型设计的过程。

    元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础,也就是说,如果我们想用元数据帮助小蝌蚪找妈妈,需要先设计出合理的元模型。下图是我试着给它们设计出的元模型(对于企业来说,真正的元模型设计过程非常复杂,受多方面因素影响):

    我们认为小蝌蚪的妈妈(Mother)由若干个属性(Property)组成,每个属性的名称用Name表示,每个属性的类型用Type表示。

    现在元模型有了,下一步就是按照这个设计好的元模型采集小蝌蚪们需要的元数据信息,也就是我们常说的元数据采集。

    2、元数据采集

    设计好元模型之后,元数据管理工具能通过全自动的方式采集到企业所需要的元数据,在这个故事中,按照我设计好的元模型,元数据管理工具的元数据采集结果应该如下图所示:

     小蝌蚪们拿着这份元数据再去针对性地检索关于妈妈的信息,就能一步到位,将目标直接锁定到青蛙,整个故事将因元数据的出现而成功改写。

     说明:在真实的企业数据环境中,数据与元数据是已经存在于系统之中的,元数据管理就是根据企业现有的元数据设计出适合企业的元模型,然后将系统之中的元数据按照元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的。

    3.元数据分析

    a、血缘分析

    假设动物园园长慢羊羊正管理着整个动物园的数据信息,有一天园长发现自己这里有个数据不对,需要找出错误数据的提供者并追究责任,那么这个错误数据来自于哪个动物家庭呢?挨家挨户去敲门核对数据显然不够高效,元数据管理工具的血缘分析功能会自动帮助园长分析这个错误数据的上游路径,比如这个数据是由鲤鱼妈妈交给鳄鱼妈妈,鳄鱼妈妈再提交给园长的,那么此时园长只需要去敲鲤鱼和鳄鱼家的门就可以了。

      b、影响分析

    数据终于更正了,此时园长需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的动物家庭就可以了,这让园长十分苦恼,整个动物园的数据传递这么复杂,怎么判断哪个家庭会受到这个数据的影响呢,元数据管理工具的影响分析功能会分析出这个数据的影响范并能用可视化的方式展现出来,园长只需要通知受影响的动物家庭就可以了。

     

      c、数据地图展现

    随着动物园规模的日益扩大,入住的动物种类日益增多,有一天园长想了解动物园的整体情况,有多少动物家庭,哪个家庭和哪个家庭比较要好,哪个家庭和哪个家庭又从来没有联系,此时元数据管理工具的数据地图可以帮助园长获取到他想要的信息,数据地图展现功能可以通过可视化的方式,让园长对整个动物园的情况了如指掌,帮助它更好地观察整个动物园的情况。

     4.元数据的重要性

    在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。

    5.什么任意维度的元数据记录、检索

    转载于:https://www.zhihu.com/question/20679872

    通过我们对元数据的解释,元数据就是对数据描述,那么讲描述的话,每个人对一个事务的描述都是不同的,会造成千奇百怪的描述。为了解决这个问题,就有了元数据标准。元数据标准包括元数据结构标准(即元数据包含那些项目,都柏林核心集,MARC元素集)、元数据内容标准、元数据取值标准、元数据编码标准(用于机读记录的存储和交换,比如MARC(Machine Readable Cataloging), XML),所以标准不一样,造成元数据记录,检索方式的不一样。

    所以一般我们看到有的服务介绍支持任意维度的元数据记录,检索就代表他支持任意标准元数据标准及元数据检索方式。



  • 相关阅读:
    C++命名法则
    腾讯附加题---递归
    决策树
    ubuntu16.04安装后干的事
    node
    iview datetime日期时间限制
    GitLab CI/CD
    本地项目上传到github
    npm--配置私服
    gitlab添加yml文件.gitlab-ci.yml
  • 原文地址:https://www.cnblogs.com/qingbaizhinian/p/13277586.html
Copyright © 2011-2022 走看看