先说一个关系:
概率图模型---->玻尔兹曼机器---->受限玻尔兹曼机器
玻尔兹曼机器是一种特殊的概率图模型,其特殊体现在:
(1)二值的
(2)从定义能量开始,能量---->概率
(3)两种区分的节点v,h,共nv+nh个,状态有2^(nv+nh)个,分析时根据每个状态的翻转会带来的能量减少。故有2^(nv+nh)项
(4)玻尔兹曼机器的训练方法
受限玻尔兹曼机器的详细各种推导:非常好!非常清晰。其主要利用单个节点的翻转,在v下hi相互独立,在h下vi相互独立,各种求和求积交替,两个状态,0状态变成e0=1,就是sigmoid的来源。实际上表达分布并不困难,但是参数还没学好呢!那用最大似然如何?问题是求对数似然函数的梯度时(最大似然函数显然不可能求出解,梯度下降或梯度上升则需要梯度计算),出现了一项期望项(∑ε(x,y).p(x,y)),怎么解决?CD-k(k步对比散度算法),即特殊的吉布斯采样(交错吉布斯采样)来计算对数似然梯度。
再回顾分布的近似学习和推理:
变分方法:sequence 方法,block 方法(KL)
采样:马尔科夫链蒙特卡洛方法、吉布斯采样
变分方法参考:An Introduction to Variational Methods for Graphical Model 和知乎1,知乎2,博客1(和详细)
采样方法参考: Gibbs sampler by sampling-importance-resampling 和博客