zoukankan      html  css  js  c++  java
  • 概览,如何管控数据

    数据管控背景

    数据管控是在做大数据平台包括传统BI都需要做的工作,数据从各个源过来,我们都要进行数据质量的管理,也就是我们常说的数据治理。那么在数据仓库建设的时候如何进行数据管控呢?

    管控手段包括对数据质量、数据生命周期、数据标准、元数据四方面的管控。

    管控手段

    数据质量

    不管是做数据仓库建设还是做数据分析,一致和准确的数据是数据模型与决策分析的基础。在实际生产环境中,我们从不同的系统抽取数据到大数据平台,那么我们就要提供一套数据监控机制,对数据质量进行监控。良好的、高质量的数据可以有效降低系统建设成本。

    数据标准

    保证标准命名、编码、业务解释等内容的唯一性。只有建立相应的标准,同时加强业务的标准化工作,规范重点业务内容,强化业务管理。并在实时过程中加强现有数据的交互性,支撑统一的业务管理,只用建立的数据标准,才能推动主数据系统的建设,完成重点数据的统一管理,为后期数据模型完全共享打下坚实的基础。

    同时在数据质量监控的同时,我们会不断完善数据标准,以适应企业内部多变的系统环境,从而形成良性循环。

    数据生命周期

    随着企业业务的增长,越来越多的数据汇入大数据平台,同时在建设数据仓库的时候,我们还进行了数据分层管理,数据会存在多份共存情况,那么此时我们就要做数据生命周期管理,对不必须保存的数据,进行冷数据管理。控制数据的生命周期,一方面可以减低成本、简化管理,同时也为我们集群腾出了资源,提高了系统性能,尽可能满足现有业务的高效运行。另外,在做数据生命周期管理的同事要注意一些风险,比如法规,对于很多互联网、银行、电信、车联网等企业,相关部门会提出原始数据必须保持多长时间的要求。在制定数据生命周期管理时,一定要注意!

    元数据

    之前写过一篇文章介绍过数据仓库的元数据《数据仓库元数据》。元数据就是对一些业务术语、标准等的统一定义、管理。对各种数据流接口的统一管理。同时在构建数据模型的时候,通过元数据我们可以进行血缘分析等。

    总结

    通过上面我们介绍的管控手段的几个要点,那么在实施过程中是否能够成功呢?大概率不会,因为团队总会有那么几个人嫌规范太繁琐,不按套路出牌,所以建立一些标准的基础上,在实施过程中我们还有建立一些规章制度,来帮助我们的规划落地,比如和员工绩效挂钩、或者制定一些流程管控、增加上线审核机制等。

    只有管控好数据,才能更好的保证数据仓库的成功实施。

  • 相关阅读:
    2010,只有感恩。
    用 pythonmessage 为程序库和日志模块解耦
    PHP 范例
    Install Perl CPAN modules
    关于人生的思考
    Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    PHP error: Cannot modify header information headers already sent
    Iceweasel安装Java plugin
    ARP协议以及集线器,交换机,路由器的组合
    Java 字符串操作
  • 原文地址:https://www.cnblogs.com/qinchaofeng/p/13878935.html
Copyright © 2011-2022 走看看