深度学习方法：受限玻尔兹曼机RBM（三）模型求解，Gibbs sampling

zoukankan html css js c++ java

深度学习方法：受限玻尔兹曼机RBM（三）模型求解，Gibbs sampling

欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：433250724，欢迎对算法、技术、应用感兴趣的同学增加。

接下来重点讲一下RBM模型求解方法。其有用的依旧是梯度优化方法，可是求解须要用到随机採样的方法。常见的有：Gibbs Sampling和对照散度(contrastive divergence, CD[8])算法。

RBM目标函数

如果给定的训练集合是S={vi}，总数是ns。当中每个样本表示为vi=(vi1,vi2,…,vinv)。且都是独立同分布i.i.d的。RBM採用最大似然预计，即最大化

$ln L S = ln \prod i = 1 n s P (v i) = \sum i = 1 n s ln P (v i)$

參数表示为θ=(W,a,b)，因此统一的參数更新表达式为：

$θ = θ + η \partial ln L S \partial θ$
当中，η表示学习速率。因此，非常明显。仅仅要我们能够求解出參数的梯度，我们就能够求解RMB模型了。我们先考虑随意单个训练样本（v0）的情况，即
$L S = ln P (v 0) = ln (1 Z \sum h e - E (v 0, h)) = ln \sum h e - E (v 0, h) - ln \sum v, h e - E (v, h)$
当中v表示随意的训练样本，而v0则表示一个特定的样本。

$\partial L S \partial θ = \partial ln P ( v 0 ) \partial θ = \partial \partial θ (ln \sum h e - E (v 0, h)) - \partial \partial θ (ln \sum v, h e - E (v, h)) = - 1 \sum h e - E ( v 0 , h ) \sum h e - E (v 0, h) \partial E ( v 0 , h ) \partial θ + 1 \sum v , h e - E ( v , h ) \sum v, h e - E (v, h) \partial E ( v , h ) \partial θ = - \sum h P (h | v 0) \partial E ( v 0 , h ) \partial θ + \sum v, h P (h, v) \partial E ( v , h ) \partial θ$
（当中第3个等式左边内条件概率P(h|v0)，由于e−E(v0,h)∑he−E(v0,h)=e−E(v0,h)/Z∑he−E(v0,h)/Z=P(v0,h)P(v0)=P(h|v0)）

上面式子的两个部分的含义是期望——左边是梯度∂E(v0,h)∂θ在条件概率分布P(h|v0)下的期望；右边是梯度∂E(v,h)∂θ在联合概率分布P(h,v)下的期望。
要求前面的条件概率是比較easy一些的。而要求后面的联合概率分布是非常困难的，由于它包括了归一化因子Z（对全部可能的取值求和，连续的情况下是积分）。因此我们採用一些随机採样来近似求解。把上面式子再推导一步，能够得到。

$\partial L S \partial θ = - \sum h P (h | v 0) \partial E ( v 0 , h ) \partial θ + \sum v P (v) \sum h P (h | v) \partial E ( v , h ) \partial θ$

因此。我们重点就是须要就算∑hP(h|v)∂E(v,h)∂θ，特别的。针对參数W,a,b来说，有

$\sum h P (h | v) \partial E ( v , h ) \partial w i j = - \sum h P (h | v) h i v j = - \sum h P (h i | v) P (h - i | v) h i v j = - \sum h i P (h i | v) \sum h - i P (h - i | v) h i v j = - \sum h i P (h i | v) h i v j = - (P (h i = 1 | v) \cdot 1 \cdot v j + P (h i = 0 | v) \cdot 0 \cdot v j) = - P (h i = 1 | v) v j$

相似的。我们能够非常easy得到：

$\sum h P (h | v) \partial E ( v , h ) \partial a i = - v i$

$\sum h P (h | v) \partial E ( v , h ) \partial b j = - P (h i = 1 | v)$

于是，我们非常easy得到，

$\partial ln P ( v 0 ) \partial w i j = - \sum h P (h | v 0) \partial E ( v 0 , h ) \partial w i j + \sum v P (v) \sum h P (h | v) \partial E ( v , h ) \partial w i j = P (h i = 1 | v 0) v 0 j - \sum v P (v) P (h i = 1 | v) v j$

$\partial ln P ( v 0 ) \partial a i = v 0 i - \sum v P (v) v i$

$\partial ln P ( v 0 ) \partial b i = P (h i = 1 | v 0) - \sum v P (v) P (h i = 1 | v)$

上面求出了一个样本的梯度。对于ns个样本有

$\partial L S \partial w i j = \sum m = 1 n s [P (h i = 1 | v m) v m j - \sum v P (v) P (h i = 1 | v) v j]$

$\partial L S \partial a i = \sum m = 1 n s [v m i - \sum v P (v) v i]$

$\partial L S \partial b i = \sum m = 1 n s [P (h i = 1 | v m) - \sum v P (v) P (h i = 1 | v)]$

到这里就比較明白了，主要就是要求出上面三个梯度；可是由于不好直接求概率分布P(v)，前面分析过，计算复杂度非常大。因此採用一些随机採样的方法来得到近似的解。看这三个梯度的第二项实际上都是求期望，而我们知道。样本的均值是随机变量期望的无偏预计。

Gibbs Sampling

非常多资料都有提到RBM能够用Gibbs Sampling来做。可是详细怎么做不讲（是不是有点蛋疼？），可能非常多人也不清楚究竟怎么做。以下略微介绍一下。

吉布斯採样（Gibbs sampling），是MCMC方法的一种，详细能够看我前面整理的随机採样MCMC的文章。
总的来说，Gibbs採样能够从一个复杂概率分布P(X)下生成数据，仅仅要我们知道它每个分量的相对于其它分量的条件概率P(Xk|X−k)，就能够对其进行採样。
而RBM模型的特殊性。隐藏层神经元的状态仅仅受可见层影响（反之亦然），并且同一层神经元之间是相互独立的，那么就能够依据例如以下方法依次採样：

也就是说hi是以概率P(hi|v0)为1，其它的都相似。这样当我们迭代足够次以后。我们就能够得到满足联合概率分布P(v,h)下的样本(v,h)，当中样本(v)能够近似觉得是P(v)下的样本。下图也说明了这个迭代採样的过程：

有了样本(v)就能够求出上面写到的三个梯度（∂LS∂wij,∂LS∂ai,∂LS∂bi）了。用梯度上升就能够对參数进行更新了。（实际中，能够在k次迭代以后，得到样本集合{v}，比方迭代100次取后面一半，带入上面梯度公式的后半部分计算平均值。）

看起来非常简单是不是？可是问题是。每一次gibbs採样过程都须要重复迭代非常多次以保证马尔科夫链收敛。而这仅仅是一次梯度更新，多次梯度更新须要重复使用gibbs採样，使得算法执行效率非常低。为了加速RBM的训练过程，Hinton等人提出了对照散度（Contrastive Divergence）方法。大大加快了RBM的训练速度，将在下一篇重点讲一下。

OK。本篇先到这里。平时工作比較忙。加班什么的（IT的都这样）。晚上回到家比較晚。每天仅仅能挤一点点时间写。写的比較慢。见谅。RBM这一块能够看的资料非常多。网上一搜一大堆。还包括hinton的一些论文和Bengio的综述[9]。只是详细手写出来的思路还是借鉴了[7]。看归看。我会自己推导并用自己的语言写出来。大家有什么问题都能够留言讨论。下一篇最后讲一下CD算法。后面有时间再拿code出来剖析一下。

觉得有一点点价值，就支持一下哈！
花了非常多时间手打公式的说~很多其它内容请关注Bin的专栏

參考资料
[1] http://www.chawenti.com/articles/17243.html
[2] 张春霞，受限波尔兹曼机简单介绍
[3] http://www.cnblogs.com/tornadomeet/archive/2013/03/27/2984725.html
[4] http://deeplearning.net/tutorial/rbm.html
[5] Asja Fischer, and Christian Igel，An Introduction to RBM
[6] G.Hinton, A Practical Guide to Training Restricted Boltzmann Machines
[7] http://blog.csdn.net/itplus/article/details/19168937
[8] G.Hinton, Training products of experts by minimizing contrastive divergence, 2002.
[9] Bengio, Learning Deep Architectures for AI, 2009

查看全文

相关阅读:
springboot日志框架
 springboot创建一个可执行的jar
springboot整合Thymeleaf模板引擎
 springboot自定义SpringApplication启动类
 springboot配置mybatis的mapper路径
 使用@SpringBootApplication注解
 HDU1269 迷宫城堡 —— 强连通分量
 POJ3177 Redundant Paths —— 边双联通分量 + 缩点
 HDU3394 Railway —— 点双联通分量 + 桥（割边）
UVA796 Critical Links —— 割边（桥）

原文地址：https://www.cnblogs.com/gccbuaa/p/7230965.html

深度学习方法：受限玻尔兹曼机RBM（三）模型求解，Gibbs sampling

RBM目标函数

Gibbs Sampling