数据质量控制与数据治理
数据质量控制与数据治理
背景
对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。
实现数据价值就需要进行业务数据分析和价值挖掘,对于大多数数据分析师来说,数据分析方法和技术都不存在问题,只要有干净完备的数据,数据价值都可以得到呈现,但是如果数据本身是错的,分析出来的结论未必有用,保证数据质量是大数据为企业带来价值的先决条件。但是大部分企业尤其是传统型企业,对于数据资源没有质量管理意识,也不懂得如何进行数据治理,导致数据质量很差,主要体现在以下几方面:数据缺失、数据孤岛、数据失真等,导致无法利用数据资源获取更多的商业价值。
数据是资源、数据分析是工具、数据结论是价值。工欲善其事必先利其器,同样,资源不储备好,再牛逼的工具也无从下手,下文重点讨论企业如何做数据质量管理和数据治理。
如何做数据质量控制和数据治理
首先说一下怎么评估企业数据质量好坏呢?从数据分析的角度或者叫数据价值的角度理解,优质数据需要在任何时候都可以被企业所信任,并且满足所有业务需求。
重点在于两点:第一是可被信任的,要求数据必须真实可靠,能够真实的记录企业运营情况;第二是可以满足需求,要求数据服务于业务,从最基础的业务监控到商业决策,都可以通过数据给出答案。
数据质量评估六要素:完整性、规范性、一致性、准确性、唯一性、关联性;
数据质量控制和数据治理就是以元数据为基础,实现企业数据优化的循环管理过程,起点是业务需求,重点是满足业务需求。
数据质量控制与治理方法论:
质量问题来源
任何质量问题改善都建立在评估的基础上,知道问题在哪里才能实施改进。数据质量问题来源按照不同的分类有不一样的问题定位,本文中关于数据质量控制与数据治理借助数据流图来说明。
数据流图也称为数据流程图date flow diagram , DFD,是一种便于用户理解和分析系统数据流程的图形工具,他摆脱了系统和具体内容,精确的在逻辑上描述系统的功能、输入、输出和数据存储等,是系统逻辑模型的重要组成部分。它从数据传递和加工的角度,以图形的方式刻画数据流从输入到输出的移动变换过程,所以它可以用来做数据质量问题定位。
标准化的系统设计,数据流图会在系统需求分析阶段完成,但是大部分的系统开发都没有进行标准化的数据流图,需求后期进行完善,具体的数据流图画法不做赘述。
案例分享
以某公司CRM系统数据为例,目前一个业务需求为分析什么样的客户特征(toB类型)可以带来更高的收益,因为业务特殊性和行业有很大的关系,就以行业数据来说明。把业务需求转化到数据需求就是一批高质量的数据(包含市场活动表、客户表、商机表、签单表等);确认数据逻辑,画出数据流图(只做简单说明):
数据质量评估,客户行业数据一致性不足40%,无法确定哪个步骤的行业输入更加准确,数据分析可信度不高,业务影响大;问题定位在一个属性数据多个输入,无修改纠正,多个数据并存;
整改方案经过沟通确定如下,通过市场部获取的客户已市场部输入为准,后续步骤默认填充,销售自己渠道获取的客户以销售输入为准,后续步骤默认填充。方案实施改进,宣导至所有干系人;
对历史数据经过数据加工进行处理,后续数据采用新逻辑,评估改进后的数据一致性,确认能否满足业务需求。