zoukankan      html  css  js  c++  java
  • 聚类方法与距离计算学习[转载]

    转自:https://wenku.baidu.com/view/ab758fc558f5f61fb73666a4.html

    1.聚类分析的类型

    2.两类距离

     2.1欧式距离:

    2.2明式距离:

    3.距离缺点引出标准化及其他距离

    马氏距离://这个没有见用过,计算比较复杂

    lance和威廉距离:

    配合距离:

    配合距离举例://也就是其中类别不一样的数目。

    4.相似度

    这里上一个PPt说:变量标准化后计算的余弦夹角与相关系数相等。我进行了计算:

    > x1<-c(6,7,3,6,6)
    > x2<-c(7,1,2,5,6)
    
    x1s<-scale(x1,center=TRUE,scale=TRUE)
    x2s<-scale(x2,center=TRUE,scale=TRUE)
    
    #计算余弦夹角,标准化数据
    > sum(x1s*x2s)/sqrt(sum(x1s^2)*sum(x2s^2))
    [1] 0.2165298
    
    #计算相关系数
    #使用未标准化的数据
    > cor.test(x1,x2,method = "pearson")
    
        Pearson's product-moment correlation
    
    data:  x1 and x2
    t = 0.38415, df = 3, p-value = 0.7265
    alternative hypothesis: true correlation is not equal to 0
    95 percent confidence interval:
     -0.8229506  0.9225542
    sample estimates:
          cor 
    0.2165298 
    
    #使用标准化的数据,结果是一样的。
    > cor.test(x1s,x2s,method = "pearson")
    
        Pearson's product-moment correlation
    
    data:  x1s and x2s
    t = 0.38415, df = 3, p-value = 0.7265
    alternative hypothesis: true correlation is not equal to 0
    95 percent confidence interval:
     -0.8229506  0.9225542
    sample estimates:
          cor 
    0.2165298 
    
    #但使用标准化与为标准化数据计算余弦夹角差距非常大
    > sum(x1*x2)/sqrt(sum(x1^2)*sum(x2^2))
    [1] 0.8757546

    查了一下,在计算皮尔逊相关系数前是否需要标准化:

    5.系统聚类法

    那么这里就涉及到如何读谱系图了:

    就是看它的线概括到了哪些,就是哪些特征在一起了。

    6.类与类之间的距离

    6.1最短距离

    6.2最远距离

    6.3中间距离

    6.4类平均法average linkage between group

    //其实这个没有看懂,nm是什么?M并不是一个类啊,它并没有样本数啊。。这个待定。

    6.5重心法(重心用的是均值)

    6.6Ward最小方法法距离

    //这里我感觉,复杂度好高啊!比方说目前有5类,那么需要两两计算合并后的离差平方和。共需要计算10次。复杂度其实是n^2。

    7.标准化方法

    8.快速聚类(k-means聚类)

    8.1初始聚类k个点的选择

    这页非常好了,选取少量样本系统聚类!。

     8.2对于spss中k-means的结果:

    注意到了有一个sig显著性参数,显著性<0.05,差异显著。

    9.变量聚类

    减少多重共线性,得到的特征并不一定都可以表示,可以减少类似的特征。

    比如上图:如果分称5类的话,那么分别是286、7、1、45、3。

    并且通过观察,每条直线终点指向的数就是聚类中心点。

  • 相关阅读:
    robotium问答
    android Instrumentoation 问答
    Zookeeper 简介
    JVM 监控工具——jstatd
    JVM 监控工具——jstack
    JVM 监控工具——jps
    TCP 连接状态
    Zookeeper 安装及命令行操作
    MySQL 修改密码和设置远程连接
    Linux 相关系统日志查看
  • 原文地址:https://www.cnblogs.com/BlueBlueSea/p/10118564.html
Copyright © 2011-2022 走看看