分布分析
分布分析能够揭示数据的分布特征和分布类型
定量数据的分布分析:频率分布直方图
定性数据的分布分析:饼图
对比分析
对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。比较方式有相对数比较和绝对数比较。
统计量分析
1、集中趋势
均值:均值的主要问题是对极端值很敏感,从而不能很好的度量数据的集中趋势。可以使用截断均值或者中位数来度量数据的集中趋势。
中位数:
众数:一般用来度量定性数据
2、离中趋势
极差:最大值和最小值的差值
标准差
变异系数:标准差与均值的比
四分位数间距:上下四分位数
周期性分析
周期性分析是探索某个变量是否随着时间而呈现出某种周期变化趋势
贡献度分析(帕累托分布)
又称2/8定律,例如,对一个公司来讲,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润。
帕累托图的画法:
先将数据进行降序排列
data.cumsum()/data.sum()
相关性分析
两个变量绘制散点图,多个变量绘制散点图矩阵
计算相关系数
Pearson相关系数
Pearson线性相关系数 要求连续变量的取值服从正太分布。不服从正态分布的变量、分类或者等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数
di = Ri - Qi
判定系数:是相关系数的平方
其他分析
加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过平均用户多少,用户连续登录天数超过平均水平多少
分位线:商品属于售出商品价格的多少分位线处
次序型:排在第几位
比例型:电商中,好/中/差评的比例