zoukankan      html  css  js  c++  java
  • 转: 谱聚类

    聚类(clustering)

    1、ground truth :真实值,以后数据的真实值用这个词语表达

    2、K-means=EM, 聚类中k均值算法其实就是一个EM算法,其中第二步把数据点归并到相应的中心点为E,根据归并后的数据点进行计算重新产生新的中心点为M,通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的

    k均值的缺点

    初始时需要指定K值

    无法产生凹型的类别,例如香蕉月牙型,只能产生类圆的形状

    对孤立点比较敏感,需要降噪处理

    3、层次聚类对大规模数据处理是否合适(有待进一步查资料)

    合适,叶子节点进行合并需要n^2次的计算,以后类间合并时不再需要计算,算法具体运行时间应该以最底层的叶子节点合并的时间为主。

    可以查看发表在《science》上面的一篇论文,链接不详

    4、谱聚类中为何要使用矩阵的特征值,特征向量?

    从最原始的线性代数角度进行考虑,矩阵是一种线性变化,特征向量就是在这个变化当中不变的向量。说白了就是在变化当中寻找不变的东西。

    参考地址:http://www.cnblogs.com/isabelincoln/archive/2009/06/18/1504623.html

     

    谱聚类与图的关系:

    数据聚类->图分割->图分割规则(求解拉普拉斯矩阵的特征问题L=D-W)【RatioCut, Ncut】

    数据点->图的顶点

    相互关系->图的边

    谱聚类的一般步骤:

    输入:聚类数K,原始数据

    a、求出邻接矩阵W

    b、求拉普拉斯矩阵L L=D-W D为度量矩阵,Dii=∑jWij

    c、计算特征向量矩阵U

    d、用K-means聚类

    输出:k个聚类

    只有拉普拉斯矩阵才能按照如下分解

    D^(-1/2)WD^(-1/2)=λ1z1z1T+λ2z2z2T+...λnznznT   |λ1|≥|λ2|≥...|λn|

    其中每个特征向量彼此正交,如果要分K个类别,只需要取前k项即可,类似于PCA主成分分析法

    谱聚类的不足之处:

    a、新增节点处理不好,需要重新计算拉普拉斯矩阵

    b、计算量大

    c、online

    5、谱聚类中随机游走的过程?

    转:http://blog.csdn.net/zhaoxinfan/article/details/8619629

  • 相关阅读:
    [Cerc2013]Magical GCD
    UVA 1393 Highways
    UVA 10214 Trees in a Wood
    [SDOI2010]大陆争霸
    Oracle逻辑读详解
    DBA_2PC_PENDING (转)
    oracle autotrace使用
    升级oracle 9i到10g
    VMware 虚拟机中添加新硬盘的方法(转载)
    ERROR 2002 (HY000): Can’t connect to local MySQL server through socket ‘/var mysql (转)
  • 原文地址:https://www.cnblogs.com/lifegoesonitself/p/3449579.html
Copyright © 2011-2022 走看看