聚类之谱聚类（转）

zoukankan html css js c++ java

聚类之谱聚类（转）
从样本相似性到图

根据我们一般的理解，聚类是将相似的样本归为一类，或者说使得同类样本相似度尽量高，异类样本相似性尽量低。无论如何，我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量，如欧氏距离、余弦相似度、高斯度量等等。

度量的选择提现了你对样本或者业务的理解。比如说如果你要比较两个用户对音乐选择的品味，考虑到有些用户习惯打高分，有些用户习惯打低分，那么选择余弦相似度可能会比欧式距离更合理。

现在我们假设已有的样本为

这是一个完全图，我们的目的是去掉一些边，使得这个图变成。同一个子图内的节点归为一类。因此有两方面考虑：
- 子图内的连边权重尽量大，即同类样本间尽量相似
- 去掉的边权重尽量小，即异类样本间尽量不同
一个初步的优化方法是去掉部分权重小的边，常用的有两种方式：
现在我们得到一个较为稀疏的图。

图与图的Laplacian矩阵

为了下一步的算法推导，首先介绍图的Laplacian矩阵，我们记节点

L(G,W)=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜∑j≠1nw1j−w21⋮−wn1−w1,2∑j≠2nw2j⋮−wn2⋯⋯⋱⋯−w1n−w2n⋮∑j≠nnwnj⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜∑j≠1nw1j∑j≠2nw2j⋱∑j≠nnwnj⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟−⎛⎝⎜⎜⎜⎜⎜w11w21⋮wn1w1,2w22⋮wn2⋯⋯⋱⋯w1nw2n⋮wnn⎞⎠⎟⎟⎟⎟⎟=D−W

容易看到，矩阵

f′Lf=f′Df−f′Wf=∑i=1ndif2i−∑i,j=1nfifjwij=12⎛⎝∑i=1ndif2i−2∑i,j=1nfifjwij+∑j=1ndjf2j⎞⎠=12∑i,j=1nwij(fi−fj)2

优化目标

现在我们来推导我们要优化的目标函数。前面说过，我们的目的是去掉一些边，使得这个图变成，我们还希望去掉的边权重尽量小。为此，假设我们已经把图分割成立K个连通子图

{ei,j|∃k,st.xi∈Ak and xj∉Ak}

为了方便，引入记号

W(A,B)=∑i∈A,j∈Bwij

W(Ak,A¯k)=∑i∈Ak,j∉Akwij

12∑k=1nW(Ak,A¯k)

现在的问题就转换为：找到。不幸的是，存在两个问题：
- 这是个NP难问题，没有有效算法
- 实际实验得到的结果常常将单独的一个样本分为一类
先来解决第二个问题：
我们实际希望的是，每个类别中的样本数要充分大，有两种调整目标函数的方法：
1. RatioCut，将目标函数改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) | A k |$
2. Ncut, 将目标函数改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) v o l （ A k ）$
两种方法都使得某个类样本量少的时候，对应的目标函数项变大。这里我们以第一种方法为例，第二种是类似的。

现在来解决第二个问题：
我们碰到NP难问题的时候，通常是考虑近似解，谱聚类也不例外。首先，我们要引入列向量

hij=⎧⎩⎨1|Aj|√0xi∈Ajxi∉Aj

h′kLhk=12∑i,j=1nwij(hkj−hkj)2=12∑xi∈Ak,xj∈Ak¯nwij(1|Ak|−−−√−0)2=12W(Ak,Ak¯)|Ak|

12∑k=1nW(Ak,A¯k)|Ak|=∑k=1nh′kLhk=tr(H′LH)

这里用到的一个trick是放宽

argminH′H=Itr(H′LH)

令

tr(H′LH)=tr((QH)′Λ(QH))=tr(Y′ΛY)=tr(YY′Λ)=∑i=1n(YY′)iiλi

由于

0≤(YY′)ii≤1

∑i=1n(YY′)ii=tr(YY′)=tr(Y′Y)=K

tr(H′LH)≥∑i=1Kλi

最后一步

现在我们得到了放宽限制条件下的优化问题的最优解解

我们知道，如果

谱聚类有意思的地方是选择了对
1. 对满足原始限制条件的
2. 在原始限制条件下得到的
如此可以推断在放宽条件下得到的

总结

至此，谱聚类的大致步骤就完成了，归纳下主要步骤
1. 计算样本相似性得到样本为节点的完全图
2. 基于
3. 计算稀疏化后的图的laplacian矩阵，计算其前
4. 对矩阵
5. 若
代码例子

左图是原始数据，右图是谱聚类结果
import numpy as np import networkx as nx import scipy.linalg as llg from Queue import PriorityQueue import matplotlib.pylab as plt import heapq as hp from sklearn.cluster import k_means # fake data from multivariate normal distribution S = np.random.multivariate_normal([1,1], [[0.5,0],[0,0.7]],100) T = np.random.multivariate_normal([-1,-1], [[0.3,0],[0,0.8]],100) R = np.random.multivariate_normal([-1,0], [[0.4,0],[0,0.5]],100) Data = np.vstack([S,T,R]) plt.subplot(1,2,1) plt.scatter(S.T[0],S.T[1],c='r') plt.scatter(T.T[0],T.T[1],c='b') plt.scatter(R.T[0],R.T[1],c='y') # calc k-nearest neighbors def min_k(i,k): pq = [] for j in range(len(Data)): if i == j: continue if len(pq) < k: hp.heappush( pq,(1/np.linalg.norm(Data[i]-Data[j]), j) ) else: hp.heappushpop( pq, (1/np.linalg.norm(Data[i]-Data[j]), j) ) return pq # calc laplacian L = np.zeros((len(Data),len(Data))) for i in range(len(Data)): for (v,j) in min_k(i, 3): L[i,j] = -v L[j,i] = -v L = L + np.diag(-np.sum(L,0)) # kmean (lam, vec) = llg.eigh(L) A = vec[:,0:3] kmean = k_means(A,3) plt.subplot(1,2,2) plt.scatter(Data.T[0],Data.T[1],c=['r' if v==0 else 'b' if v==1 else 'y' for v in kmean[1]]) plt.show()
转：http://blog.csdn.net/betarun/article/details/51154003
查看全文

相关阅读:
indy Sftp 编程 ftp安全访问
 关于MySql里的字段
 php---魔术方法（__tostring()，__set_state()）
看了这个才发现jQuery源代码不是那么晦涩
 JS的Document属性和方法小结
 JS的Document属性和方法
 原始JS选择器使用方法总结
 docker 镜像配置
 Docker部署SpringBoot项目
 springboot 和spring cloud 博客分享

原文地址：https://www.cnblogs.com/shixisheng/p/7650159.html

聚类之谱聚类（转）

从样本相似性到图

图与图的Laplacian矩阵

优化目标

最后一步

总结

代码例子