数据管控背景
数据管控是在做大数据平台包括传统BI都需要做的工作,数据从各个源过来,我们都要进行数据质量的管理,也就是我们常说的数据治理。那么在数据仓库建设的时候如何进行数据管控呢?
管控手段包括对数据质量、数据生命周期、数据标准、元数据四方面的管控。
管控手段
数据质量
不管是做数据仓库建设还是做数据分析,一致和准确的数据是数据模型与决策分析的基础。在实际生产环境中,我们从不同的系统抽取数据到大数据平台,那么我们就要提供一套数据监控机制,对数据质量进行监控。良好的、高质量的数据可以有效降低系统建设成本。
数据标准
保证标准命名、编码、业务解释等内容的唯一性。只有建立相应的标准,同时加强业务的标准化工作,规范重点业务内容,强化业务管理。并在实时过程中加强现有数据的交互性,支撑统一的业务管理,只用建立的数据标准,才能推动主数据系统的建设,完成重点数据的统一管理,为后期数据模型完全共享打下坚实的基础。
同时在数据质量监控的同时,我们会不断完善数据标准,以适应企业内部多变的系统环境,从而形成良性循环。
数据生命周期
随着企业业务的增长,越来越多的数据汇入大数据平台,同时在建设数据仓库的时候,我们还进行了数据分层管理,数据会存在多份共存情况,那么此时我们就要做数据生命周期管理,对不必须保存的数据,进行冷数据管理。控制数据的生命周期,一方面可以减低成本、简化管理,同时也为我们集群腾出了资源,提高了系统性能,尽可能满足现有业务的高效运行。另外,在做数据生命周期管理的同事要注意一些风险,比如法规,对于很多互联网、银行、电信、车联网等企业,相关部门会提出原始数据必须保持多长时间的要求。在制定数据生命周期管理时,一定要注意!
元数据
之前写过一篇文章介绍过数据仓库的元数据《数据仓库元数据》。元数据就是对一些业务术语、标准等的统一定义、管理。对各种数据流接口的统一管理。同时在构建数据模型的时候,通过元数据我们可以进行血缘分析等。
总结
通过上面我们介绍的管控手段的几个要点,那么在实施过程中是否能够成功呢?大概率不会,因为团队总会有那么几个人嫌规范太繁琐,不按套路出牌,所以建立一些标准的基础上,在实施过程中我们还有建立一些规章制度,来帮助我们的规划落地,比如和员工绩效挂钩、或者制定一些流程管控、增加上线审核机制等。
只有管控好数据,才能更好的保证数据仓库的成功实施。