zoukankan      html  css  js  c++  java
  • 数据质量

    数据质量:
    1/ 数据质量控制环节
    2/ 元数据管理

    数据质量包括:
    数据的完整性
    数据自成体系、无数据缺失(包括实体记录缺失、字段信息缺失)
    数据一致性:
    在整个数仓中,同一数据各主题、层次数据一致
    正确性:
    在数仓各部分、确保数据不失真
    及时性:
    整个数仓处理过程中,数据及时到位、及时反馈

    数据质量的控制不只是在数据进入数仓后才开始,而是渗透到数据流通的各个环节:
    数据生产
    数据采集与同步
    数据模型设计
    ETL开发
    指标体系
    比如:
    一、数据生产环节面临的问题:
    1/ 业务侧有独立的设计,数据仓库开发人员不易介入
    2/ 一般公司业务现行,数据仓库建设靠后,业务设计的时候没有兼顾数据侧
    3/ 传统公司业务较稳定,但互联网公司业务频繁变动,会存在信息不同步或同步不及时
    4/ 源侧数据随意变更
    解决思路:
    1/ 尽可能的向业务侧靠拢,了解公司产品、了解业务侧技术架构,向他们灌输数据思维,强调数据的重要性
    2/ 流程方面,推动或约束产品经理、研发设计人员同步产品动态信息,参与产品需求评审、技术方案评审,甚至出一些表、接口设计规范,形成上线通报机制
    3/ 技术方面,无论多么完善的流程,都会打折落地,所以要从技术角度去控制,比如利用技术手段捕获上线结构变化来避免信息不同步

    二、数据采集与同步:

    问题:
    1/ 数据源侧的采集边界控制
    2/ 采集方案要兼顾 源侧的存储方案和技术架构
    3/ 采集过程中的变化数据
    解决办法:
    1/ 能够自己采集的,自己去源侧采集数据,更方便控制数据采集边界.部分场景不允许自己采集的(比如银行有些数据是不允许采集的,此时谁的数据谁负责出,推送到统一的接口),但需要数仓侧定义接口规范,确保统一的数据接入规范.
    2/ 面对不同系统不同的存储方案或技术架构,采集侧尽量采用统一的采集方案,避免到数仓侧的标准不统一
    3/ 对于采集过程中的数据变化,第一需要控制好采集边界,第二需要定义清楚变化部分的数据归属,一定程度上允许多采集下一个周期的数据,但不可少采集
    4/设计合理的补偿策略

    三、数据模型设计:

    四、 ETL开发:(数仓重点关注)

    job可重复性
    可局部修复
    程序灵活高质量
    合理的review机制
    敏感的监控机制、灵活的优先级策略(尤其对调度)

    五、指标体系:
    统一的指标口径、定义 (高层的人推动)
    构建指标管理系统,不仅停留在口头层面(做了,让用户去用。而不是还没做,征求大家的规范,再按规范去做。认为好就先推出去)

    六、事后校验:(数仓重点关注)

    元数据管理:
    描述、管理数据的数据称为元数据
    1/ 数据仓库模型
    2/ 调度过程数据
    3/ 数据字典(hive表里)
    4/ 血缘关系(各个表间的血缘关系,通过这个可以知道表的数据关系)
    5/ 指标体系

     案例:某公司的数据管理平台

     #能够找到原系统的数据库,采集到哪儿,目标表名,数据是否一致(能发现源端是否发生变化),状态。

    任务依赖:

     数据质量监控,某一指标,指标名称

    命名规范:

     

     

    对ods层:

     ETL脚本命名规范:

     

     

    开发规范:

     

     样例:

  • 相关阅读:
    2020牛客暑期多校训练营(第三场)C-Operation Love(计算几何)
    洛谷 P3376 【模板】网络最大流
    2020牛客暑假多校训练营(第二场)F-Fake Maxpooling(单调队列)
    Codeforces Round #655 (Div. 2)【ABCD】(题解)
    Codeforces Round #648 (Div. 2)【ABCDEF】(题解)
    Codeforces Round #647 (Div. 2)
    Codeforces Round #646 (Div. 2)【ABCDE】(题解)
    Educational Codeforces Round 88 (Rated for Div. 2)【ABCDE】(题解)
    [蓝帽杯2020]一个利用data伪协议和include,file_get_contents写shell的web题
    [网鼎杯2020朱雀场] misc部分题解
  • 原文地址:https://www.cnblogs.com/hongfeng2019/p/12245083.html
Copyright © 2011-2022 走看看