zoukankan      html  css  js  c++  java
  • 数据标准化

    #一日一词#

    在前一篇变异系数中,讲到不同样本不能直接比较其统计量。

    在数据标准化中,首先说下针对不同组不同量纲的数据比较:样本数据标准化。如果比较两个样本中某一数值的大小,如班级中A同学的语文成绩和B两同学的数学成绩相比,谁更好?由于不能直接比较,(不能说语文108就没有数学123好)需要将样本数据标准化。

    栗子:

    这时候比较A同学的语文成绩和B同学的数学成绩(两个成绩在一起差不多就是我高中状态(~ ̄▽ ̄)~)。直接比较不行,然后进行数据标准化处理,将两组数据标准化为平均数为0和方差为1的样本。

    公式:

    标准值=(样本值-平均数)/标准差

    因此得到新的数据样本:

    这个时候,两组样本的平均值和标准差都一致,就可以直接比较了,所以看下,A同学的语文成绩比B同学的数学好得多了。(不要说样本不同没有可比性,那是没找到方法)主要是因为两个样本中,语文的一分比数学的一分价值大。

    数据标准化的作用:数据标准化是为了消除不同属性或样方间的不齐性,使同一样本内的不同属性间或同一属性在不同样本内的方差减小,包括数据同趋化处理和无量纲化处理两个方面;

    有时是为了限制数据的取值范围,如[0,1]闭区间等。

    常用的有“最小—最大标准化”、“Z-score标准化”、“按小数定标标准化”、“log函数转换”等。

  • 相关阅读:
    python_socket
    python_面向对象(其他)+异常处理+单实例
    并发编程——协程
    数据库开发——MySQL——数据类型——非数值类型
    ALGO-1 区间k大数查询
    数据库开发——MySQL——数据类型——数值类型
    BASIC-10 十进制转十六进制
    BASIC-9 特殊回文数
    BASIC-8 回文数
    BASIC-7 特殊的数字
  • 原文地址:https://www.cnblogs.com/rhongp/p/6383852.html
Copyright © 2011-2022 走看看