数据分析的层级

zoukankan html css js c++ java

数据分析的层级
心理学研究有四个目的——描述、解释、预测、控制——本文借以表述数据分析的4个层级。

描述

第一个层级是描述——可以理解为用数据来描述某个事物。

用数据来描述某个事物的第一步是量化——通过数值来描述或者衡量某个事物的某种属性或状态——最终得到的数值可以是通过某个公式计算到的，也可以是多个“专家”进行主观评定的。

得到单个数值并不能说明什么问题，要想让数值产生价值，最简单的操作就是对比——通过和某个参照值进行对比进而判断表现的好坏。

为什么需要对比？
假设小明考试考了90分(满分100分)，首先90分表示小明正确回答了90%的问题，不过90分到底好不好，需要比较后才能知道：
- 可以和同班同学比，这次考试，全班平均分是92分，看来小明的成绩没有达到中等水平；
- 也可以和小明的历史成绩比，上一次小明的考试是60分呢，哇塞，长进很大哦。
我们可以把关注的指标和参照值对比发现的gap值称为Δ值——可以将delta值理解为差异值或者变化值，更多可以可以参考前文《从“Δ值”谈数据分析》.

在“描述”这个层级，对应的数据分析的典型工作是报表开发。
- 列举关键指标数值及发展趋势，展示业务达标情况，e.g.KPI的完成情况，和KPI的差距；
- 拆解业务关键指标，可以参考加权公式进行横向维度上的拆解或者纵向业务环节的拆分；
- 设定各自指标的基准参照值，以揭示指标的波动情况(delta值)。
关于“描述”部分，小结如下

解释

(Delta X leftarrow Delta Y)

数据分析中经常需要应对的问题是指标的波动——如果将波动的指标命名为Y，那么此时就需要找出是哪些因素引发了(Delta Y).

e.g. 某一天观察到app的日活下降了很多(同比于上一周期)，作为分析师你应该怎么做？

指标的波动时相对于历史数据而言(纵向对比)，另一个典型的(Delta Y)出现的场景是组间差异(横向对比)，比如在某些业务场景下，你可能发现两个不同的用户群在某指标上表现的差异很大，那么你可能想知道导致这种差异的原因。

除此之外，以下场景也是和ΔY有关的高频场景
- 为什么某个细类拖了整体的后腿？
- 为什么业务表现低于预期KPI？
- 为什么业务低于竞争对手？
我们用公式 (Delta X leftarrow Delta Y) 来表示针对变化量的归因。

对于变化量的归因，一般流程如下：
1. 判断波动的严重程度，需要设置对比的参照值和波动报警的阈值；
2. 排除数据问题，比如底层表是不是有改动或者有人修改了报表中的指标规则，一般来说新上线的业务比较容易出现数据问题；
3. 定位问题环节，将(Delta Y)在更细的维度上拆解，时间维度上可以看是什么时候开始的以及持续了多久，空间维度上可以从“人货场”各维度拆分，看看是什么用户群、商品、业务场景问题最严重；
4. 是否历史有类似情况或者波动规律；
5. 先查内因(渠道入口、转化环节、人货场)；
6. 再查外因(政策、市场、竞品等)；
这个顺序也不是绝对的，总体来说的原则有两点：
- 定位变化发生的环节；
- 按概率从高到低来排查可能的影响因素；
(X leftarrow Y)

除了关注变化量ΔY外，我们还关注有哪些影响因素会影响业务上的关键指标。

这里用 (X leftarrow Y) 来表示，注意箭头的方向。

(X leftarrow Y) 和 (Delta X leftarrow Delta Y) 有一部分内容是重叠的，一般来说，对(Delta Y) 有影响的因素也是对(Y)有影响的。

不过(X leftarrow Y) 更强调找到影响关键指标(Y)的影响因素X，并建立相应的函数 (Y = f(X)).

这些(X)中就包含了在产品或运营上可操作可控制的因素。

e.g. 访问用户数 * 下单率 * 客单价 = 销售额，基于这个简单的公式可以判断，如果要提升销售额至少可以从三个角度来着手。

关于“解释”，小结如下

预测

这部分的内容，在文章《预测的方法》中已有较详尽的说明，请阅读此文。

如上图所示，预测有3个角度。

(X ightarrow Y)

对应“解释”中(X leftarrow Y) 的逆操作——从已知的X来推导未知的Y。

这个过程可以看做是evaluate，可以使用如下两种方法：
- 基于关联原则来类推，简称“类推法”，也就是先归类，然后推导。比如格子衫、发量少、戴眼镜、男性、程序员这几个特征是高度关联的，知道“格子衫”和“发量少”就能推断出此人职业很可能是“程序员”；
- 基于目标数据和已知数据存在“函数关系”，简称“函数法”或者“公式法”，即(Y=f(X))，基于函数规则就能计算得到目标数据(Y)。比如评估某次产品运营活动对交易产生的影响量(Y)，那么对应需要考虑的X可能包含活动覆盖的人群属性、人群数量、活动方式、优惠力度等；
(Delta X ightarrow Delta Y)

相当于what if分析。
比如某个产品功能要改动，需要预估这个改动可能带来的影响，比如影响的范围(多少用户，多少订单等)，以及对业务关键指标可能产生的波动范围。

(Y_{t_1},Y_{t_2},..., Y_{t_k} ightarrow Y_{t'})

基于“时间序列”来预估未来的数据，相当于forecast，比如股票走势、业务发展趋势、交易量预估等。

控制

从心理学研究的角度来看，能控制改变人的认知和行为是最高层级——这样看来，X教授的能力应该算是最强的了。

不过，从数据分析的角度来说就没有那么“科幻”了。

可以从两个角度来看数据分析在“控制”这个层级的工作：
- 收益角度
- 函数角度
收益角度

降本增效是商业的核心追求，数据则是要辅助这个目标的实现。

可以从3方面着手：
1. 提升收入(做加法)，比如提升每单位交易收入(客单价、ARPPU等)或者提升交易基数(用户量、订单数等)；
2. 降低成本(做减法)，减少人力、物力、资金的投入；
3. 提升效率(做乘法)，提高单位时间的完成量或者周转率等；
函数角度
1. 超越预设目标
  (G(cost, limit, way) geq target)
2. 最大化目标函数
  (Maxigl( G(cost, limit, way) igr))
注：
- cost 可以投入的资源或成本，比如人力、物力、金钱、时间等；
- limit 受到的限制，比如外部PEST的限制，或者行业的瓶颈等；
- way 可以到达目标的可选路径；
- target 预设的目标或期望的收益；
- (G(cost, limit, way)) 相当于收益的目标函数
本小节小结如下
作者：https://www.cnblogs.com/dataxon/

本博客所有文章仅用于学习、研究和交流目的，欢迎非商业性质转载。

转载请注明作者及出处
查看全文

相关阅读:
Java--强制转化
 Java--成绩分类
 建造者模式的应用
 抽象工厂模式的应用
 工厂模式
 第几天
 Stacking Plates（存档待续.....(没有写思路和程序)）
圆的面积
 公孙策和陆湘湘对话（少年包青天第二部第二十集末尾和第二十一集开头部分）
简单接口回调例子

原文地址：https://www.cnblogs.com/dataxon/p/12784906.html

数据分析的层级

描述

解释

(Delta X leftarrow Delta Y)

(X leftarrow Y)

预测

(X ightarrow Y)

(Delta X ightarrow Delta Y)

(Y_{t_1},Y_{t_2},..., Y_{t_k} ightarrow Y_{t'})

控制

收益角度

函数角度