zoukankan      html  css  js  c++  java
  • 【阿里巴巴大数据实践笔记】第12章:元数据

    1.元数据定义

    元数据( Metadata )是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。

    元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。 

    2.元数据价值

    数据的真正价值在于数据驱动决策,通过数据指导运营。可以用于指导数据相关人员进行日常工作,实现数据化“运营”。 

    • 对于数据使用者,可以通过元数据让其快速找到所需要的数据;
    • 于 ETL 工程师,可以通过元数据指导其进行模型设计、任务优化和任务下线等各种日常 ETL 工作;
    • 对于运维工程师,可以通过元数据指导其进行整个集群的存储、计算和系统优化等运维工作。 

    (1)应用链路分析:

    在数据应用方面打通产品及应用链路,保障产品数据准确、及时产出。

    • 例如打通 MaxCompute 和应用数据,明确数据产等级,更有效地保障产品数据。
    • 例如在计算上可以利用元数据查找超长行节点,对这些节点进行专项治理,保障基线产出时间。
    • 例如可以利用元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据。 

    通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。其中表级血缘主要有两种计算方式:一种是通过MaxCompute任务日志进行解析;一种是根据任务依赖进行解析。

    (2)指导数据建模:

    传统的数据仓库建模一般采用经验建模的方式,效率较低且不准确。基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。

    • 基于从表的段使用情况 ,可以确定哪些字段进入目标模型。如表和字段的查询次数、关联次数、聚合数、过滤次数、产出时间。
    • 基于表的字段元数据,选择业务过程标识字段(PI或PPI)。如字段中的时间字段、字段在下游使用中的过滤次数

    上述描述中,查询指 SQL 的 SELECT ; 关联指 SQL 的 JOIN ; 聚合指 SQL的 GROUP BY ; 过滤指 SQL 的 WHERE

    (3) ETL运维:

    资源、下线无访问的任务。

  • 相关阅读:
    CentOS 7.3 CDH 5.10.0 Druid0.12.4安装记录
    cloudera manager卸载流程
    CDH5.10.0 离线安装(共3节点) 转
    CentOS 7 安装Httpd(转)
    CentOS下MySQL的彻底卸载
    CentOS7 修改主机名
    sendEvent()
    QSignalMapper Class
    ubuntu12.04开启虚拟机的unity模式
    BCM_I2C函数更改
  • 原文地址:https://www.cnblogs.com/badboy200800/p/11007878.html
Copyright © 2011-2022 走看看