转：机器学习算法笔记：谱聚类方法

zoukankan html css js c++ java

转：机器学习算法笔记：谱聚类方法
https://blog.csdn.net/betarun/article/details/51154003

这方法是昨天听同学提起的，大致翻看了几篇博客跟论文，这里写下自己的理解

从样本相似性到图

根据我们一般的理解，聚类是将相似的样本归为一类，或者说使得同类样本相似度尽量高，异类样本相似性尽量低。无论如何，我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量，如欧氏距离、余弦相似度、高斯度量等等。

度量的选择提现了你对样本或者业务的理解。比如说如果你要比较两个用户对音乐选择的品味，考虑到有些用户习惯打高分，有些用户习惯打低分，那么选择余弦相似度可能会比欧式距离更合理。

现在我们假设已有的样本为 $X = {x_{1}, x_{2}, \dots, x_{n}}$

这是一个完全图，我们的目的是去掉一些边，使得这个图变成 $K$
- 子图内的连边权重尽量大，即同类样本间尽量相似
- 去掉的边权重尽量小，即异类样本间尽量不同
一个初步的优化方法是去掉部分权重小的边，常用的有两种方式：
- $ϵ$
- $k$
现在我们得到一个较为稀疏的图。

图与图的Laplacian矩阵

为了下一步的算法推导，首先介绍图的Laplacian矩阵，我们记节点 $i, j$

$L (G, W) = (\begin{matrix} \sum_{j \neq 1}^{n} w_{1 j} & - w_{1, 2} & \dots & - w_{1 n} \\ - w_{21} & \sum_{j \neq 2}^{n} w_{2 j} & \dots & - w_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ - w_{n 1} & - w_{n 2} & \dots & \sum_{j \neq n}^{n} w_{n j} \end{matrix}) = (\begin{matrix} \sum_{j \neq 1}^{n} w_{1 j} \\ \sum_{j \neq 2}^{n} w_{2 j} \\ ⋱ \\ \sum_{j \neq n}^{n} w_{n j} \end{matrix}) - (\begin{matrix} w_{11} & w_{1, 2} & \dots & w_{1 n} \\ w_{21} & w_{22} & \dots & w_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{n 1} & w_{n 2} & \dots & w_{n n} \end{matrix}) = D - W$

容易看到，矩阵 $L$

$f^{'} L f = f^{'} D f - f^{'} W f = \sum_{i = 1}^{n} d_{i} f_{i}^{2} - \sum_{i, j = 1}^{n} f_{i} f_{j} w_{i j} = \frac{1}{2} (\sum_{i = 1}^{n} d_{i} f_{i}^{2} - 2 \sum_{i, j = 1}^{n} f_{i} f_{j} w_{i j} + \sum_{j = 1}^{n} d_{j} f_{j}^{2}) = \frac{1}{2} \sum_{i, j = 1}^{n} w_{i j} (f_{i} - f_{j})^{2}$

优化目标

现在我们来推导我们要优化的目标函数。前面说过，我们的目的是去掉一些边，使得这个图变成 $K$

${e_{i, j} | \exists k, s t . x_{i} \in A_{k} a n d x_{j} \notin A_{k}}$

为了方便，引入记号

$W (A, B) = \sum_{i \in A, j \in B} w_{i j}$

那么

$W (A_{k}, {\bar{A}}_{k}) = \sum_{i \in A_{k}, j \notin A_{k}} w_{i j}$

因此去掉的边的权重和为

$\frac{1}{2} \sum_{k = 1}^{n} W (A_{k}, {\bar{A}}_{k})$

现在的问题就转换为：找到 $X$
- 这是个NP难问题，没有有效算法
- 实际实验得到的结果常常将单独的一个样本分为一类
先来解决第二个问题：
我们实际希望的是，每个类别中的样本数要充分大，有两种调整目标函数的方法：
1. RatioCut，将目标函数改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) | A k |$
2. Ncut, 将目标函数改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) v o l （ A k ）$
  其中 $v o l (A) = \sum_{i \in A} d_{i}$
两种方法都使得某个类样本量少的时候，对应的目标函数项变大。这里我们以第一种方法为例，第二种是类似的。

现在来解决第二个问题：
我们碰到NP难问题的时候，通常是考虑近似解，谱聚类也不例外。首先，我们要引入列向量 $h_{k} = (h_{1 k}, \dots, h_{n, k})^{'}$

$h_{i j} = {\begin{cases} \frac{1}{\sqrt{| A_{j} |}} & x_{i} \in A_{j} \\ 0 & x_{i} \notin A_{j} \end{cases}$

那么，

$h_{k}^{'} L h_{k} = \frac{1}{2} \sum_{i, j = 1}^{n} w_{i j} (h_{k j} - h_{k j})^{2} = \frac{1}{2} \sum_{x_{i} \in A_{k}, x_{j} \in \bar{A_{k}}}^{n} w_{i j} (\frac{1}{\sqrt{| A_{k} |}} - 0)^{2} = \frac{1}{2} \frac{W (A_{k}, \bar{A_{k}})}{| A_{k} |}$

令 $H = (h_{1}, \dots, h_{K})$

$\frac{1}{2} \sum_{k = 1}^{n} \frac{W (A_{k}, {\bar{A}}_{k})}{| A_{k} |} = \sum_{k = 1}^{n} h_{k}^{'} L h_{k} = t r (H^{'} L H)$

$H = (h_{1}, \dots, h_{K})$

这里用到的一个trick是放宽 $H$

${\arg min}_{H^{'} H = I} t r (H^{'} L H)$

令 $L = Q^{'} Λ Q, Y = Q H$

$t r (H^{'} L H) = t r ((Q H)^{'} Λ (Q H)) = t r (Y^{'} Λ Y) = t r (Y Y^{'} Λ) = \sum_{i = 1}^{n} (Y Y^{'})_{i i} λ_{i}$

由于 $Y^{'} Y = I$

$0 \leq (Y Y^{'})_{i i} \leq 1$

$H = (h_{1}, \dots, h_{K})$

$\sum_{i = 1}^{n} (Y Y^{'})_{i i} = t r (Y Y^{'}) = t r (Y^{'} Y) = K$

$H = (h_{1}, \dots, h_{K})$

$t r (H^{'} L H) \geq \sum_{i = 1}^{K} λ_{i}$

$H = (h_{1}, \dots, h_{K})$

最后一步

现在我们得到了放宽限制条件下的优化问题的最优解解 $h_{1}, \dots h_{K}$

我们知道，如果 $H$

谱聚类有意思的地方是选择了对 $H$
1. 对满足原始限制条件的 $H$
2. 在原始限制条件下得到的 $H$
如此可以推断在放宽条件下得到的 $H$

总结

至此，谱聚类的大致步骤就完成了，归纳下主要步骤
1. 计算样本相似性得到样本为节点的完全图
2. 基于 $ϵ$
3. 计算稀疏化后的图的laplacian矩阵，计算其前 $K$
4. 对矩阵 $H$
5. 若 $H$
代码例子

左图是原始数据，右图是谱聚类结果
```
import numpy as np
import networkx as nx
import scipy.linalg as llg
from Queue import PriorityQueue
import matplotlib.pylab as plt
import heapq as hp
from sklearn.cluster import k_means

# fake data from multivariate normal distribution
S = np.random.multivariate_normal([1,1], [[0.5,0],[0,0.7]],100)
T = np.random.multivariate_normal([-1,-1], [[0.3,0],[0,0.8]],100)
R = np.random.multivariate_normal([-1,0], [[0.4,0],[0,0.5]],100)
Data = np.vstack([S,T,R])
plt.subplot(1,2,1)
plt.scatter(S.T[0],S.T[1],c='r')
plt.scatter(T.T[0],T.T[1],c='b')
plt.scatter(R.T[0],R.T[1],c='y')

# calc k-nearest neighbors
def min_k(i,k):
    pq = []
    for j in range(len(Data)):
        if i == j:
            continue
        if len(pq) < k:
            hp.heappush( pq,(1/np.linalg.norm(Data[i]-Data[j]), j) )
        else:
            hp.heappushpop( pq, (1/np.linalg.norm(Data[i]-Data[j]), j) )
    return pq

# calc laplacian
L = np.zeros((len(Data),len(Data)))
for i in range(len(Data)):
    for (v,j) in min_k(i, 3):
        L[i,j] = -v
        L[j,i] = -v
L = L + np.diag(-np.sum(L,0)) 

# kmean
(lam, vec) = llg.eigh(L)
A = vec[:,0:3]
kmean = k_means(A,3)

plt.subplot(1,2,2)
plt.scatter(Data.T[0],Data.T[1],c=['r' if v==0 else 'b' if v==1 else 'y' for v in kmean[1]])
plt.show()            
```
查看全文

相关阅读:
【2019-12-13】泛型
 【2019-12-12】函数
 【2019-12-10】类
 【2019-12-05】接口
 【2019-12-3】变量声明
 【2019-11-24】基础类型
 【2019-11-20】服务与DI简介
 【2019-11-20】组件简介
 android之ListView与Adapter(结合JavaBean)
android基类Adapter

原文地址：https://www.cnblogs.com/lm3306/p/9313875.html

转：机器学习算法笔记：谱聚类方法

从样本相似性到图

图与图的Laplacian矩阵

优化目标

最后一步

总结

代码例子