#一日一词#
在前一篇变异系数中,讲到不同样本不能直接比较其统计量。
在数据标准化中,首先说下针对不同组不同量纲的数据比较:样本数据标准化。如果比较两个样本中某一数值的大小,如班级中A同学的语文成绩和B两同学的数学成绩相比,谁更好?由于不能直接比较,(不能说语文108就没有数学123好)需要将样本数据标准化。
栗子:
这时候比较A同学的语文成绩和B同学的数学成绩(两个成绩在一起差不多就是我高中状态(~ ̄▽ ̄)~)。直接比较不行,然后进行数据标准化处理,将两组数据标准化为平均数为0和方差为1的样本。
公式:
标准值=(样本值-平均数)/标准差
因此得到新的数据样本:
这个时候,两组样本的平均值和标准差都一致,就可以直接比较了,所以看下,A同学的语文成绩比B同学的数学好得多了。(不要说样本不同没有可比性,那是没找到方法)主要是因为两个样本中,语文的一分比数学的一分价值大。
数据标准化的作用:数据标准化是为了消除不同属性或样方间的不齐性,使同一样本内的不同属性间或同一属性在不同样本内的方差减小,包括数据同趋化处理和无量纲化处理两个方面;
有时是为了限制数据的取值范围,如[0,1]闭区间等。
常用的有“最小—最大标准化”、“Z-score标准化”、“按小数定标标准化”、“log函数转换”等。