zoukankan      html  css  js  c++  java
  • 统计学相关概念及机器学习中样本相似性度量之马氏距离


    均值、标准差、方差:

    样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资、年收入等等,只有个文字游戏而已。

    标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以集合[0,8,12,20]和集合[8,9,11,12]为例,两者的均值都是10,但显然后都较为集中,故其标准差小一些。所以标准差描述的是集合中样品分布的聚合程度。

    方差是标准差的平方。


    期望:

    期望是对一组概率事件在实验前根据概率分布预测出的样本的平均值,是一个概率论的概念,而均值是该概率事件发生后根据实际结果统计的样本的平均值,是一个统计概念。例如对于一个随机数发生器,每次随机生成1到9之间的整数,发生N次,那么对于产生的序列,其期望是5,即理论意义上计算出的均值,但是实际的均值会随着发生次数而改变,有可能是4.5,下次又有可能是5.5,只有在发生次数达到无穷多次之后,实际的均值才会等于期望。

    一句话概况:期望就是平均数随样本趋于无穷的极限。


    协方差:

    协方差用于衡量两个变量的总体误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望,那么两个变量之间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0。


    欧氏距离:

    欧氏距离也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点之间的直线段距离。在多维向量中欧式距离的计算定义为两个他们向量对应元素差的平方和再开方。

    欧氏距离在解决多元数据的分析问题时,存在一定的问题,欧氏距离将样本的不同属性无差别对待,实际问题中往往样本中每个属性的权重因子是不一样的,比如衡量一所房子的好坏,对于有子女需要上学的人,会认为学位更为重要,所占权重应该大一些,而有些家庭人口比较多的人考虑到人均面积,会认为户型、房间数量所占权重应该大一些等等,所以在这种情况欧氏距离各个元素一刀切的对待方式来评价一个现实问题往往是不可取的。


    马氏(Mahalanobis)距离:

    马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis) 提出的,表示数据所在的空间的协方差的度量,或者认为是把数据所在空间进行归一化处理之后再进行的度量。它是一种有效的计算两个未知样本集的相似度的方法。

    与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant) ,即独立于测量尺度。马氏距离不受量纲的影响,两者之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。

    马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。马氏距离是多维空间中两点相似性的变量,往往作为聚类或者分类算法的基础。


  • 相关阅读:
    2009 中国软件技术英雄会
    《致加西亚的信》一书中的一个隐蔽错误
    英文版XP不能打开带有中文路径的chm文件的解决办法
    NetBeans 时事通讯(刊号 # 49 Mar 17, 2009)
    对《致加西亚的信》的异议
    NetBeans 时事通讯(刊号 # 49 Mar 17, 2009)
    Linux运行时I/O设备的电源管理框架
    groovy正则提取完整版本
    Linux 流量监控软件 NetHogs
    Re: 在北京待着到底为了什么
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9411935.html
Copyright © 2011-2022 走看看