本文介绍从传统的报表平台中梳理和重构指标库的操作步骤。
01 野蛮生长的报告
对于基于KPI的传统仪表盘和报表系统,随着业务规模和数据展示需求的增长,通常是来一个需求就开发一个报告,最终的结果便是成百上千的报告和统计指标。其中不乏大量的重复和无人关注的报告。
规模暴涨的同时也会伴随着的一系列问题,比如:
- 重复的数据源,服务器算力的浪费;
- 类似报告/指标中的数据不一致,影响的数据可信度;
- 报告间的路径依赖,变更时可能存在遗漏。
02 指标库梳理
造成以上的原因基本上是因为数据/数据分析部门是以业务需求为导向,忽略一开始以统一的指标库为导向。通俗点说也就是先垒砖还是先修框架的问题。
单纯垒砖砌楼实现了早期遮风避雨,不可厚非,但要起大楼高楼,后面还是要补修框架的工作量。因此,在数据报告平台上,若一开始没有统一的指标库,最终还是要对指标库进行重构。
重构的第一步便是指标梳理,以下内容将分四个步骤简要说明如何基于已有报告进行指标梳理。
02.1 切分主题
结合业务场景,通过平台中的目录树或者报告名称中的关键词,提取业务主题。比如,零售行业的业务主题有销售、客群、库存、线上MAU等。以销售为例,可以通过销售、销量、利润等关键词搜索出所有相关的报告。
如上图所示,可以通过Sales搜索到该报告。
02.2 已有指标提取
从02.01的样例报告中,可以提取销售相关的指标及其维度,比如销量和利润,同时每一个指标从报告中可以得到其下钻的业务维度(上图中关注的States,即区域)和技术维度(yoy,即指标同比)。
在提取的过程中,对每个指标做4件事情:
- 记录每个报告中使用的数据源;
- 切换到编辑模式查看每个指标的计算逻辑并进行记录;
- 对报告中的指标联系进行分层,比如利润率销售额和利润的2层指标(通过计算可以获得);
- 如果与其他报告有重复指标,记录他们之前的联系。
02.3 指标状态量化
完成一个主题下的指标提取和特性梳理之后,可以从以下几个方面对报告和报告中的指标进行量化:
- 指标现状:报告数量、指标数量、业务维度;
- 指标联系:指标的重用率、类似指标使用次数排名;
- 数据源现状:数据源的总数,数据源的重用率。
利用以上的量化数据,可以对已有报告有一个全局的认识,并且指出优化的方向。例如,指标的重用率远高于数据源的重用率,其实数据源是可以进行整合的。
02.3 绘制指标/维度关系图
最后根据统计出的核心指标(使用次数高的),结合所有的维度信息绘制出指标结构图。
03 指标库搭建
基于上一章节的步骤和输出,下一步即可编写特定业务主题下的指标库:
- 提取出所有的核心指标;
- 附加每个核心指标的业务维度和技术维度;
- 衍生指标中由于KPI或性能要求也放入体系中;
- 无法通过维度下钻实现的特殊指标也放入体系。
如此搭建的指标库满足数仓维度建模的结构,可以使用常见的OLAP软件实现数据处理,后续的新报告需求在此体系上核对、修改、新增和下线,更易于维护数据的一致性和通用性。