zoukankan      html  css  js  c++  java
  • (4)数据--相似性与相异性

    相似性和相异性(区别性,不同性)

          相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。

    相似性与相异性的转换

          相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换。

    简单属性值之间的相似性与相异性

          对于nominal类型而言,唯一能做的就是比较看两个值是否相同了,那么可以定义相似性为s=1,if 两个值相同,否则s=0。相异性的取值反之。对于ordinal,可以把取值符号都映射成数字,比如{1,2,3,4,5},那么可以定义相异性d为两个取值的差,或者差再除以最大取值与最小取值的差。注意这里假设了相等的间距,这个假设可能不太合理。对于interval和ratio类型的属性而言,可以用差的绝对值来定义相异性。

    数据个体间的相异性

          数据个体的相异性可以简单定义为两个数据个体所表示向量的距离,比如可以用欧氏距离来衡量:

     

    事实上,欧氏距离是Minkowski距离的一种情况。

    Minkowski Distance:  

    对于上式,当r=1时就是曼哈顿距离了,当r=2就是欧氏距离(即L2 norm), 当r=无穷大时就是Lmax norm。

    距离有以下一些属性。

    1.Positivity

           当x=y时

    2.对称性

           

    3.三角形定理

           

    三角形定理可以用来加速某些依赖于距离度量的操作。注意有很多相异性是不满足以上某些式子的。

    数据个体间的相似性

          对Binary数据的距离的衡量。

    Simple Matching Coefficient(SMC)

          SMC=取值相同的属性数/总属性数

    SMC不适用于非对称的数据,Jaccard Coefficient比较适合,因为它忽略了零值的匹配。

          J=取值相同且非零的属性数/总属性数

    余弦相似性,类似于Jaccard,忽略了零值的匹配,比较适合处理非对称数据。同时,余弦忽略了magnitude的影响,通过正规化得到只与方向有关的一个度量。

             杠杠x,杠杠y,即两个向量的点积除以两个长度(L2 norm)

    还有一种Jaccard Coefficient的扩展,可以用来计算非Binary的向量的相似性:

          

    最后提一个相关系数(Correlation),这是一个衡量两个数据个体的线性相关性的量。常用的是Pearson's Correlation。

           ,这里cov是协方差,std是标准差

           

         

       ...

           

    相似性相异性相关问题

      如何处理不同Scale的变量---标准化

      如何处理属性间具有相关性的数据---马氏距离(Mahalanobis Distance)

      如何处理不同类型的属性(比如有的属性是nominal有的是interval):

           ,这里的 取0或者1。当第k个属性是非对称属性,且两个数个体的对应属性去0时,或者其中一个的值缺失时,取0,否则取1。此外还可以对属性们赋予不同的权重值。

     

     

     

    补充

    独立: 

    不相关: 

    独立—>不相关     逆否命题: 相关—>不独立

    对于均值为零的高斯随机过程而言:不相关—>独立

    正交: 

    当其中有一个是期望为零的随机过程时,不相关<—>正交

     

  • 相关阅读:
    swagger多个分组代码展示
    rabbitMQ基本概念
    谈谈微信支付曝出的漏洞
    谈谈离职和跳槽
    一个著名的任务调度系统是怎么设计的?
    BAT等公司必问的8道Java经典面试题,你都会了吗?
    从世界杯竞猜骗局谈二分法
    Spring4+Spring MVC+MyBatis整合思路
    十张图让你了解阿里公司架构设计的发展变化史
    一位00后程序员的成长历程
  • 原文地址:https://www.cnblogs.com/acetseng/p/4496592.html
Copyright © 2011-2022 走看看