高斯场与调和函数

zoukankan html css js c++ java

高斯场与调和函数
高斯场与调和函数是一种半监督的学习方法，也是一种直推式学习（transductive learning）方法。即测试样本是已知的，所以在学习的过程中，可以充分利用测试样本，以使学习出来的模型能更好的预测测试样本。

1. 高斯随机场 (Gaussian Random Fields)

有$ l (个已标记的样本) (x_1, y_1),...,(x_l, y_l) $, $ u (个未标记的样本) x_{l+1},..., x_{l+u} (。使用)L(和)U(分别表示标记样本与未标记样本集合。假设这是个两类问题，则)y_L in {0,1}(。将每个样本当作一个结点，构建一个连接图)G=(V,E)(，其中V是结点，E是边。使用)n imes n(的权重矩阵)W(来表示边。)W$可以用RBF核计算：

[w\_{ij} = exp( -frac{1}{sigma^2} sum_{d=1}^m (x\_{id} - x\_{id})^2 ]
在结点上，定义一个实值函数：$f:L cup U ightarrow mathbb{R} $。我们希望相似的结点，其类别标签也相似。所以可定义二次能量函数

[E(f)=frac{1}{2}sum_{i,j} w\_{ij} (f(i)-f(j))^2 ]
希望寻找合适的(f)，使得能量函数最小。因为标记数据的类别是已知的，可以给(f)增加约束条件(f(i)=y_i, iin L)。

定义(f)函数的概率分布：

[p(f)=frac{1}{Z}e^{-eta E(f)} ]
(eta)是参数，(Z)是配分函数

[Z = int\_{f\_L=y\_L} exp(-eta E(f))df ]
我们更感兴趣的是(p(f_i|Y\_L), i in U)。

(p(f))和(p(f\_U|Y\_L))都是服从多元高斯分布。这就是为什么(p)被称为高斯随机场。

2. 图拉普拉斯（The Graph Laplacian）

此处引入组合拉普拉斯(Delta)。定义对角矩阵(D)，其中(D\_{ii}=sum_j W\_{ij})是结点(i)的度。拉普拉斯定义为

[Delta = D - W ]
则能量函数可以记作：

[E(f) = frac{1}{2}sum_{i,j} w\_{ij} (f(i)-f(j))^2 = f^T Delta f ]
高斯随机场可以写作：

[p(f) = frac{1}{Z} {e^{-eta f^T Delta f}} ]
(p(f))是(f)的二次函数。(Delta)是高斯分布的精度矩阵。如果(W)是对称且非负的，则(Delta)一定至少是半正定的。

3. 调和函数 (Harmonic Functions)

可以证明，最小能量函数(f=argmin\_{f\_L=Y\_L}E(f))是调和的。也就是，在未标记数据上(Delta f=0)，在标记数据上(Delta f=Y\_L)。下文中，我们使用(h)来表示这个调和函数。

调和函数的性质，意味着每个未标记点的(h(i))值是其近邻的平均值：

[h(i) = frac{1}{D\_{ii}} sum_{j in N\_p(i)} w\_{ij} h(j), ; for ; i ; in U ]
这也与图的平滑性假设相一致。由于调和函数的最大值原理，(h)是唯一的，且当(iin U)时，(0 le h(i) le 1) （当(iin L)时，(h(i)=0)或(1)）。

为了求解调和函数(h)，我们将权重矩阵(W)，(D)和(Delta)分割成(4)块：

[W = left[ egin {array}{cc} W\_{LL} & W\_{LU} \ W\_{UL} & W\_{UU} end {array} ight] ]
通过上述的性质(Delta h = 0)和(h\_L = Y\_L)，可以得

[h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L \ = -(Delta\_{UU})^{-1} Delta\_{UL} Y\_L \ = (I - P\_{UU})^{-1} P\_{UL} Y\_L ]
上述结果与label propagation算法的结果一样。其中(P = D^{-1}W)是图的变换矩阵。

4. 总结

给定标记样本 ((x\_1, y\_1),..,(x\_l, y\_l)) 与未标记样本 $x_{l+1},..., x_{l+u} $，可以通过上述过程，求解出未标记样本的类别标签。

首先求解出调和函数(h)

[h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L ]
再通过(h)，求解出(Y\_U)

[ y\_u = egin{cases} 1 & if ;; h\_u ge 0.5 \ 0 & if ;; h\_u < 0.5 \ end{cases} ]
此外，该方法还与随机游走（Random Walk），弹性网络（Electric Networks）以及图切（Graph Mincut）都有着紧密的联系。甚至与图的谱聚类，核正则化等都有着联系。

参考文献：
1. Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In The 20th International Conference on Machine Learning (ICML), 2003. ICML 10-Year Classic Paper Prize.
2. Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, 2005. CMU-LTI-05-192.
查看全文

相关阅读:
POJ 2503 Babelfish
POJ 1182 食物链
 POJ 2352 Stars
POJ 2528 Mayor's posters
POJ 1328 Radar Installation
POJ 1017 Packets
jQuery实现登录提示
 【1-5】jQuery对象和DOM对象
 【1-4】jQuery代码风格-导航栏
 【3】买苹果

原文地址：https://www.cnblogs.com/grindge/p/3677675.html

高斯场与调和函数

1. 高斯随机场 (Gaussian Random Fields)

2. 图拉普拉斯（The Graph Laplacian）

3. 调和函数 (Harmonic Functions)

4. 总结