拿到一份陌生数据时,我们首先提取一些基础的统计指标看一下数据情况。
平均数、标准差、中位数,众数。
平均数代表数据宏观中的平均情况。
标准差代表数据的离散情况,存在大量极端数据还是都是分散在平均值。
中位数来判断数据是否是“正太分布”
众数某种意义上代表数据的偏好程度。
——————白话大数据与机器学习笔记