——从技术、架构、设计、运营、管理5个维度系统总结数据中台实现方法论
PART1前言(WHY)
IT到DT
信息化演进之路,“让数据用起来”
数据中台3个核心认知
1.需要提升到基础设施的高度,进行规模化投入 ;
2.需要全新的数据价值观与方法论,形成平台级能力;
3.需要业务、数据、分析综合性人才,尽快启动人才储备。
数据中台3个发展阶段
1.探索阶段:技术与现有业务结合,迅速形成可见、可展示的成果;缺点是缺乏整体规划,每个项目都要从头到尾走一遍,底层数据支持效率会大幅下降。
2.整合数据应用提升效率:1)数据汇聚/交换能力;2)数据资产化能力;3)数据服务化能力
3.重构数据空间和业务空间
PART2数据中台是什么(WHAT)
什么是数据中台
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,够贱的一套持续不断把数据变成资产并服务于业务的机制
数据中台必备4个核心能力
1.汇聚整合;2.提纯加工;3.服务可视化;4.价值变现
数据中台业务价值-赋能业务、核心壁垒
1.以客户为中心,用洞察驱动企业稳健行动;2.以数据为基础,支持大规模商业创新;3.盘活全量数据,构建核心壁垒以持续领先
数据中台技术价值-能力多、成本低、应用广
1.应对多数据处理需求;2.丰富标签数据,降低管理成本;3.支持跨主题域访问;4.数据可快速复用
PART3数据中台建设方法(HOW)
数据中台建设方法论
1种战略行动:企业级战略规划
2种保障条件:1.需要有组织保障;2.需要提升全企业数据意识:1)数据采集意识、2)数据标准化意识、3)数据使用意识、4)数据安全意识
3项目标准则:1.数据可见;2.数据可用;3.数据可运营
4套建设内容:1.技术体系;2.数据体系;3.服务体系 ;4.运营体系
5个关键步骤:1.理现状:组织、业务、数据、技术现状;2.立架构:组织、业务、技术、应用、数据架构;3.建资产:数据集成、资产萃取、数据标准、数据质量;4.用数据:数据安全、场景服务;5.做运营:监控审计、价值评估、质量评估、资产排名
数据中台架构
1.数据汇聚;2.数据开发;3.数据体系;4.数资管理;5.数据服务体系 ;6.运营体系和安全管理
PART4企业数据能力评估(WHO)
企业数据应用成熟度评估
1.统计分析阶段
2.决策支撑阶段
3.数据驱动阶段
4.运营优化阶段
什么企业适合建设数据中台
1.有一定的信息化基础,沉淀了数据,实现了业务数据化过程;
2.企业业务有丰富的数据维度及场景,特别是多业态型集团企业;
3.企业有数字化转型、精细化经营的需求。
PART5数据中台架构讲解(Detail)
数据汇聚联通-打破数据孤岛
数据采集汇聚
1.线上行为采集:1)客户端埋点:全埋点、可视化埋点、代码埋点;2)服务端埋点
2.线下行为采集
3.互联网数据采集:网络爬虫,Nutch、Scrapy
4.内部数据汇聚:Canal、Sqoop、DataX
数据交换产品
1.数据源管理:1)关系型MySQL、oracle;2)Nosql:Hbase、Redis、elasticsearch、Cassandra、MongoDB、Neo4J;3)网络和MQ:kafka、HTTP;4)文件系统:HDFS、FTP、OSS、CSV、TXT、Excel;5)大数据相关:hive、impala、kudu
2.离线数据交换:1)读取插件;2)写入插件;3)数据交换核心模块
3.实时数据交换:1)数据订阅服务CLIENT SERVER:数据订阅和读取、任务实例启停控制;2)数据消费服务:任务状态控制、数据解析、过滤、转换、写入等
数据存储
1.在线与离线
2.OLTP与OLAP
3.存储技术:1)分布式系统;2)Nosql数据库;3)云数据库
数据开发-价值提炼
产品能力
1.离线开发:核心功能点作业调度、基线控制、异构存储、权限管控等,离线套件封装包括数据加工、分析 ,在线查询,即席分析等能力;整合任务调度、发布、运维、监控、告警等。
2.实时开发:核心功能点元数据管理、SQL驱动开发、组件化配置
3.算法开发:可视化建模及notebook建模,常用语金融风控与反欺诈、文本挖掘分析、广告精准营销、个性化推荐
数据计算能力4种类型
1.批计算:MapReduce、spark
2.流计算:storm、flink、spark streaming,应用场景如流式ETL、流式报表、监控预警、在线系统
3.在线查询:elasticsearch、Redis,应用场景如画像服务、搜索、圈人场景
4.即席分析:impala、kylin、clickhouse,应用场景如交互式数据分析、群体对比分析
数据体系建设-夯实基础
贴源数据层ODS
仅做多源数据的汇聚、整合;
在ODS不做字段命名统一,可与业务系统字段名保持一致;
若采用增量同步方式,需要同时建立增量表和全量表
统一数仓层DW
细分为明细数据层DWD和汇总数据层DWS,从业务视角组织数据,常用维度建模方法
1.划分数据域:1)数据调研;2)业务分类;3)数据域定义:划分业务范围;4)总线矩阵构建:数据域下的业务过程与维度信息梳理
2.指标设计:保持一致性,原子指标+时间修饰词+其他维度修饰词=派生指标
3.维度表设计:1)选择维度;2)确定主维表;3)梳理关联维表;4)定义维度属性
4.事实表设计:1)过程:确定业务过程;定义粒度;确定维度;确定事实;冗余维度属性
2)类别:事务事实表-记录业务事务级别数据(增量更新);周期快照事实表-记录时间周期内的聚集事实或状态度量(增量更新);累计快照事实表-覆盖一个事务从开始到结束之间所有关键事件(全量刷新)。
标签数据层TDM
面向对象建模,跨业务、域整合打通
1.确定对象:人、物、关系(事实关系与归属关系)
2.对象ID打通
3.标签类目设计
4.标签设计
5.标签融合表设计:横表or纵表?
应用数据层ADS
从统一数仓层、标签层抽数、面向业务特殊需要加工业务特定数据
1.需求调研
2.盘点现有数据能否满足;个性化数据加工
3.组装应用层数据
数据资产管理-承上启下
什么是数据资产
企业拥有或控制、能带来未来经济利益的数据资源
数资管理现状
缺乏统一的数据视图;数据基础薄弱;数据应用不足;数据价值难估;缺乏安全的数据环境;数据管理浮于表面
数资管理4个目标
1.可见:数据资产地图
2.可懂:元数据管理,数据资产标签化
3.可用:统一数据标准,提升数据质量和数据安全性
4.可运营:组织管理制度与价值评估体系
数资管理11大职能
1.数据标准管理:对数据的表达、格式及定义的一致约定。业务术语标准、参考数据和主数据标准、数据 元标准、指标数据标准。
2.数据模型管理:概念数据模型、逻辑数据模型、物理数据模型。
3.元数据管理 :元数据是描述数据的数据。技术元数据、业务元数据、管理元数据。元数据常应用于:1)元数据浏览检索;2)血缘分析与影响分析;3)冷热度分析。
4.主数据管理:用来描述企业核心业务实体的数据,如供应商、客户等。
5.数据质量管理:从业务、管理、技术入手。准确性;完整性;一致性;有效性;唯一性;及时性;稳定性;连续性;合理性。
6.数据安全管理:通过评估安全风险,设置数据安全等级、完善数据安全管理制度及技术规范,保证数据被合法合规、安全采集、传输、存储和使用。
7.数据价值管理:度量数据内在价值,成本与应用价值。
8.数据共享管理:包括内部共享、外部流通与对外开放。
9.生命周期管理:1)不可恢复数据-建议保存;2)可恢复数据-灵活调整。
10.标签管理:1)数据分类标签如来源、更新频率、归属部门等;2)根据某些行为组织的内容标签如还贷能力等。
11.数据资产门户:1)数据资产地图;2)数据资产目录;3)数据资产检索
数资管理级别评估
初始级—>受管理级—>稳健级—>量化管理级—>优化级
数资管理的7个成功要素
1.强有力的组织架构;2.清晰的数据战略;3.重视数据的企业文化;4.合理的制度与流程;5.标准与规范;6.成熟的软件平台;7.科学的项目实施
数据服务体系建设-“API-最后一公里”
3大数据服务核心能力
1.基础数据服务:面向对象是物理表数据,主要场景包括数据查询、多维分析
2.标签画像服务:面向对象是标签数据,主要场景包括标签圈人、画像分析
3.算法模型服务:面向对象是算法模型,主要场景包括智能营销、个性化推荐、金融风控
4种常见的数据服务
1.查询:1)支持配置查询标识;2)支持配置过滤项;3)支持查询结果配置
2.分析:1)支持多源数据接入;2)高性能即席查询;3)多维数据分析;4)灵活对接业务系统
3.推荐:1)支持不同行业推荐;2)支持不同场景推荐;3)支持推荐效果优化
4.圈人:1)支持人群圈选;2)支持人群计量;3)支持多渠道对接
3种对接服务的数据应用
1.数据大屏:1)需求调研;2)数据开发;3)数据服务封装;4)可视化展现
2.数据报表:1)传统报表-记录;2)统计报表-统计;3)分析报表-分析(BI类报表)
3.智能应用:1)个性化推荐应用;2)精准营销应用
数据中台运营机制与安全管理-安全质量是基础、提效降本是关键
数据中台运营的4个价值切入点
1.统一战略;2.搭建组织;3.打造氛围;4.实践创新
数据资产运营的4个目标
1.可阅读-读取门户或数据地图;
2.易理解-标签化;
3.好使用-API服务体系;
4.有价值-价值评估
数据资产运营链路
1.看-资产门户
2.选-意向资产库
3.用-服务接口
4.治-标签治理及数据治理
5.评-资产评估
数据资产运营执行
1.资产信息组织登记;2.数资宣传推广;3.搭建服务保障平台;4.持续治理优化;5.价值评估
数据资产安全管理
1.分级分类管理;2.脱密和加密;3.监控和审计
数据成本运营
1.存储成本;2.计算成本
大数据平台安全管理
1.统一安全认证和权限管理;2.资源隔离;3.数据加密;4.数据脱敏;5.容灾备份;6.其他(匿名发布、数字水印、数据溯源、角色挖掘等)