1.为什么要数据治理
Ebay--Why do we do data governance
- To ensure security and privacy of the data and access control.
确保数据和访问控制的安全性和私密性。
To capture the metadata of datasets for security and end-user data consumption purposes.
出于安全性和最终用户数据消耗的目的,捕获数据集的元数据。
To help to ensure the quality of the data.
帮助确保数据质量。
To identify the owner of the data set.
标识数据集的所有者。
此外,当前大数据平台正在面对各种挑战:
- 面对海量且持续增加的各式各样的数据对象,很难明确其来源,去处,使用频率和生命周期。
- 用户不知道大数据平台中有哪些数据,也不知道这些数据和业务的关系是什么,该到去哪里寻找数据来满足业务需求。
- 数据质量是从传统数据平台开始就一直存在的问题,没有质量控制导致海量数据因质量过低而难以被利用,没有能有效管理整个大数据平台的管理流程。
- 数据的使用管理,什么人可以拿到数据,可以拿到多少数据。
- 如何对数据使用过程进行审计,发现违规的数据使用行为。
- 大数据时代,企业拥有着海量数据,但企业数据缺乏相互关联,数据的深层价值难以体现。
从上述挑战中可以总结出数据治理需要做的事,后续篇章会详细介绍。
2.数据治理的对象
数据不会无缘无故的产生,也不会自己表述其具有的含义,更不会自己管理自己,所以我们才会有数据治理。如果用数据库的表设计来说明的话,我们大概分为三个部分,分别如下:
- 概念设计,主要用来描述业务对象或者业务关系
- 逻辑模型,通常指ER图来描述概念设计的模型
- 物理模型,用来存储ER图实际的物理结构,包括存储结构和存储方法。
按照元数据的功能来划分:[1]是业务元数据;[2]和[3]属于技术元数据;还有一个是操作元数据,主要就是描述数据是怎么产生,如DB的日志,数据使用的时候安全,审计,血缘等信息。
数据治理实际就是在管理业务元数据,技术元数据,操作元数据这三方面的内容。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等
常见的元数据信息
- 数据的表结构Schema信息
- 数据的空间存储,读写记录,权限归属和其它各类统计信息
- 数据的血缘关系信息,不同数据任务之间的依赖关系
- 数据的业务属性信息,数据的业务属性信息,通常与底层系统自身的运行逻辑无关,需要从外部获取
比如一张数据表的统计口径信息,这张表干什么用的,各个字段的具体统计方式,业务描述,业务标签,脚本逻辑的历史变迁记录,变迁原因等等,采集和展示也就需要尽可能的和业务环境相融合
3.数据治理需要做的事
元数据管理
包括元数据采集、血缘分析、影响分析等功能
数据标准管理
包括标准定义、标准查询、标准发布等功能
数据质量管理
包括质量规则定义、质量检查、质量报告等功能
数据集成管理
包括数据处理、数据加工、数据汇集等功能
数据资产管理
包括数据资产编目、数据资产服务、数据资产审批等功能
数据安全管理
包括数据权限管理、数据脱敏、数据加密等功能
数据生命周期管理
包括数据归档、数据销毁等功能
主数据管理
包括主数据申请、主数据发布、主数据分发等功能