转：谱聚类

zoukankan html css js c++ java

转：谱聚类

聚类（clustering）

1、ground truth ：真实值，以后数据的真实值用这个词语表达

2、K-means=EM, 聚类中k均值算法其实就是一个EM算法，其中第二步把数据点归并到相应的中心点为E，根据归并后的数据点进行计算重新产生新的中心点为M，通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的

k均值的缺点

初始时需要指定K值

无法产生凹型的类别，例如香蕉月牙型，只能产生类圆的形状

对孤立点比较敏感，需要降噪处理

3、层次聚类对大规模数据处理是否合适（有待进一步查资料）

合适，叶子节点进行合并需要n^2次的计算，以后类间合并时不再需要计算，算法具体运行时间应该以最底层的叶子节点合并的时间为主。

可以查看发表在《science》上面的一篇论文，链接不详

4、谱聚类中为何要使用矩阵的特征值，特征向量？

从最原始的线性代数角度进行考虑，矩阵是一种线性变化，特征向量就是在这个变化当中不变的向量。说白了就是在变化当中寻找不变的东西。

参考地址：http://www.cnblogs.com/isabelincoln/archive/2009/06/18/1504623.html

谱聚类与图的关系：

数据聚类->图分割->图分割规则（求解拉普拉斯矩阵的特征问题L=D-W）【RatioCut, Ncut】

数据点->图的顶点

相互关系->图的边

谱聚类的一般步骤：

输入：聚类数K，原始数据

a、求出邻接矩阵W

b、求拉普拉斯矩阵L L=D-W D为度量矩阵，Dii=∑jWij

c、计算特征向量矩阵U

d、用K-means聚类

输出：k个聚类

只有拉普拉斯矩阵才能按照如下分解

D^(-1/2)WD^(-1/2)=λ1z1z1T+λ2z2z2T+...λnznznT |λ1|≥|λ2|≥...|λn|

其中每个特征向量彼此正交，如果要分K个类别，只需要取前k项即可，类似于PCA主成分分析法

谱聚类的不足之处：

a、新增节点处理不好，需要重新计算拉普拉斯矩阵

b、计算量大

c、online

5、谱聚类中随机游走的过程？

转：http://blog.csdn.net/zhaoxinfan/article/details/8619629

查看全文

相关阅读:
php备份数据库类分享
 nginx https配置后无法访问，可能防火墙在捣鬼
 linux服务器，svn认证失败,配置问题，防火墙等等
 为了解决linux配置Nginx 只能关闭防火墙才能访问的问题
 nginx 防火墙、权限问题
 思数云hadoop目录
 delete
善用GIMP(Linux下的Photoshop)，图像处理轻松又自由
 超赞干货！2016年新鲜出炉的20款网页开发工具推荐
 10款Web前端工具

原文地址：https://www.cnblogs.com/lifegoesonitself/p/3449579.html

转： 谱聚类