zoukankan      html  css  js  c++  java
  • 高斯场与调和函数

    高斯场与调和函数是一种半监督的学习方法,也是一种直推式学习(transductive learning)方法。即测试样本是已知的,所以在学习的过程中,可以充分利用测试样本,以使学习出来的模型能更好的预测测试样本。

    1. 高斯随机场 (Gaussian Random Fields)

    有$ l (个已标记的样本) (x_1, y_1),...,(x_l, y_l) $, $ u (个未标记的样本) x_{l+1},..., x_{l+u} (。使用)L(和)U(分别表示标记样本与未标记样本集合。假设这是个两类问题,则)y_L in {0,1}(。将每个样本当作一个结点,构建一个连接图)G=(V,E)(,其中V是结点,E是边。使用)n imes n(的权重矩阵)W(来表示边。)W$可以用RBF核计算:

    [w\_{ij} = exp( -frac{1}{sigma^2} sum_{d=1}^m (x\_{id} - x\_{id})^2 ]

    在结点上,定义一个实值函数:$f:L cup U ightarrow mathbb{R} $。我们希望相似的结点,其类别标签也相似。所以可定义二次能量函数

    [E(f)=frac{1}{2}sum_{i,j} w\_{ij} (f(i)-f(j))^2 ]

    希望寻找合适的(f),使得能量函数最小。因为标记数据的类别是已知的,可以给(f)增加约束条件(f(i)=y_i, iin L)

    定义(f)函数的概率分布:

    [p(f)=frac{1}{Z}e^{-eta E(f)} ]

    (eta)是参数,(Z)是配分函数

    [Z = int\_{f\_L=y\_L} exp(-eta E(f))df ]

    我们更感兴趣的是(p(f_i|Y\_L), i in U)

    (p(f))(p(f\_U|Y\_L))都是服从多元高斯分布。这就是为什么(p)被称为高斯随机场。

    2. 图拉普拉斯(The Graph Laplacian)

    此处引入组合拉普拉斯(Delta)。定义对角矩阵(D),其中(D\_{ii}=sum_j W\_{ij})是结点(i)的度。拉普拉斯定义为

    [Delta = D - W ]

    则能量函数可以记作:

    [E(f) = frac{1}{2}sum_{i,j} w\_{ij} (f(i)-f(j))^2 = f^T Delta f ]

    高斯随机场可以写作:

    [p(f) = frac{1}{Z} {e^{-eta f^T Delta f}} ]

    (p(f))(f)的二次函数。(Delta)是高斯分布的精度矩阵。如果(W)是对称且非负的,则(Delta)一定至少是半正定的。

    3. 调和函数 (Harmonic Functions)

    可以证明,最小能量函数(f=argmin\_{f\_L=Y\_L}E(f))是调和的。也就是,在未标记数据上(Delta f=0),在标记数据上(Delta f=Y\_L)。下文中,我们使用(h)来表示这个调和函数。

    调和函数的性质,意味着每个未标记点的(h(i))值是其近邻的平均值:

    [h(i) = frac{1}{D\_{ii}} sum_{j in N\_p(i)} w\_{ij} h(j), ; for ; i ; in U ]

    这也与图的平滑性假设相一致。由于调和函数的最大值原理,(h)是唯一的,且当(iin U)时,(0 le h(i) le 1) (当(iin L)时,(h(i)=0)(1))。

    为了求解调和函数(h),我们将权重矩阵(W)(D)(Delta)分割成(4)块:

    [W = left[ egin {array}{cc} W\_{LL} & W\_{LU} \ W\_{UL} & W\_{UU} end {array} ight] ]

    通过上述的性质(Delta h = 0)(h\_L = Y\_L),可以得

    [h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L \ = -(Delta\_{UU})^{-1} Delta\_{UL} Y\_L \ = (I - P\_{UU})^{-1} P\_{UL} Y\_L ]

    上述结果与label propagation算法的结果一样。其中(P = D^{-1}W)是图的变换矩阵。

    4. 总结

    给定标记样本 ((x\_1, y\_1),..,(x\_l, y\_l)) 与未标记样本 $x_{l+1},..., x_{l+u} $,可以通过上述过程,求解出未标记样本的类别标签。

    首先求解出调和函数(h)

    [h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L ]

    再通过(h),求解出(Y\_U)

    [ y\_u = egin{cases} 1 & if ;; h\_u ge 0.5 \ 0 & if ;; h\_u < 0.5 \ end{cases} ]

    此外,该方法还与随机游走(Random Walk),弹性网络(Electric Networks)以及图切(Graph Mincut)都有着紧密的联系。甚至与图的谱聚类,核正则化等都有着联系。

    参考文献:

    1. Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In The 20th International Conference on Machine Learning (ICML), 2003. ICML 10-Year Classic Paper Prize.
    2. Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, 2005. CMU-LTI-05-192.
  • 相关阅读:
    Springmvc+Easyui 搜索,新增,删除,修改
    重炉后-文件上传下载
    文件下载
    easyui-dialog里面的东西
    Mysql多表查询
    spring框架-spring.xml配置文件
    面向对象15.3String类-常见功能-判断
    面向对象15.3String类-常见功能-转换
    面向对象15.3String类-常见功能-获取-2
    面向对象15.3String类-常见功能-获取-1
  • 原文地址:https://www.cnblogs.com/grindge/p/3677675.html
Copyright © 2011-2022 走看看