转【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)

zoukankan html css js c++ java

转【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)
【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)

http://blog.csdn.net/dark_scope/article/details/9447967

分类：机器学习2013-07-24 11:50 517人阅读评论(5) 收藏举报
目录(?)[-]
==========================================================================================
最近一直在看Deep Learning，各类博客、论文看得不少
但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox
只是跟着Andrew Ng的UFLDL tutorial 写了些已有框架的代码(这部分的代码见github)
后来发现了一个matlab的Deep Learning的toolbox，发现其代码很简单，感觉比较适合用来学习算法
再一个就是matlab的实现可以省略掉很多数据结构的代码，使算法思路非常清晰
所以我想在解读这个toolbox的代码的同时来巩固自己学到的，同时也为下一步的实践打好基础
(本文只是从代码的角度解读算法，具体的算法理论步骤还是需要去看paper的
我会在文中给出一些相关的paper的名字，本文旨在梳理一下算法过程，不会深究算法原理和公式)
==========================================================================================
使用的代码：DeepLearnToolbox ，下载地址：点击打开，感谢该toolbox的作者
==========================================================================================
今天介绍DBN的内容，其中关键部分都是(Restricted Boltzmann Machines, RBM)的步骤，所以先放一张rbm的结构，帮助理解
(图来自baidu的一个讲解ppt)
==========================================================================================
照例，我们首先来看一个完整的DBN的例子程序：
这是 ests est_example_DBN.m 中的ex2
[cpp] view plain copy
1. //train dbn
2. dbn.sizes = [100 100];
3. opts.numepochs = 1;
4. opts.batchsize = 100;
5. opts.momentum = 0;
6. opts.alpha = 1;
7. dbn =dbnsetup(dbn, train_x, opts); //here！！！
8. dbn = dbntrain(dbn, train_x, opts); //here！！！
10. //unfold dbn to nn
11. nn = dbnunfoldtonn(dbn, 10); //here！！！
12. nn.activation_function = 'sigm';
14. //train nn
15. opts.numepochs = 1;
16. opts.batchsize = 100;
17. nn = nntrain(nn, train_x, train_y, opts);
18. [er, bad] = nntest(nn, test_x, test_y);
19. assert(er < 0.10, 'Too big error');
其中的过程简单清晰明了，就是dbnsetup(),dbntrain()以及dbnunfoldtonn()三个函数
最后fine tuning的时候用了（一）里看过的nntrain和nntest，参见（一）
DBNdbnsetup.m

     这个实在没什么好说的，
     直接分层初始化每一层的rbm(受限波尔兹曼机(Restricted Boltzmann Machines, RBM))
     同样，W,b,c是参数，vW,vb,vc是更新时用到的与momentum的变量，见到代码时再说
[cpp] view plain copy
1. for u = 1 : numel(dbn.sizes) - 1
2. dbn.rbm{u}.alpha = opts.alpha;
3. dbn.rbm{u}.momentum = opts.momentum;
5. dbn.rbm{u}.W = zeros(dbn.sizes(u + 1), dbn.sizes(u));
6. dbn.rbm{u}.vW = zeros(dbn.sizes(u + 1), dbn.sizes(u));
8. dbn.rbm{u}.b = zeros(dbn.sizes(u), 1);
9. dbn.rbm{u}.vb = zeros(dbn.sizes(u), 1);
11. dbn.rbm{u}.c = zeros(dbn.sizes(u + 1), 1);
12. dbn.rbm{u}.vc = zeros(dbn.sizes(u + 1), 1);
13. end
DBNdbntrain.m

应为DBN基本就是把rbm当做砖块搭建起来的，所以train也很简单
[cpp] view plain copy
1. function dbn = dbntrain(dbn, x, opts)
2. n = numel(dbn.rbm);
3. //对每一层的rbm进行训练
4. dbn.rbm{1} = rbmtrain(dbn.rbm{1}, x, opts);
5. for i = 2 : n
6. x = rbmup(dbn.rbm{i - 1}, x);
7. dbn.rbm{i} = rbmtrain(dbn.rbm{i}, x, opts);
8. end
9. end
首先映入眼帘的是对第一层进行rbmtrain()，后面每一层在train之前用了rbmup，
rbmup其实就是简单的一句sigm(repmat(rbm.c', size(x, 1), 1) + x * rbm.W');
也就是上面那张图从v到h计算一次，公式是Wx+c
   接下来是最关键的rbmtrain了：
DBN bmtrain.m

        代码如下，说明都在注释里
         论文参考：【1】Learning Deep Architectures for AI   以及
                          【2】A Practical Guide to Training Restricted Boltzmann Machines
         你可以和【1】里面的这段伪代码对应一下

[cpp] view plain copy
1. for i = 1 : opts.numepochs //迭代次数
2. kk = randperm(m);
3. err = 0;
4. for l = 1 : numbatches
5. batch = x(kk((l - 1) * opts.batchsize + 1 : l * opts.batchsize), :);
7. v1 = batch;
8. h1 = sigmrnd(repmat(rbm.c', opts.batchsize, 1) + v1 * rbm.W'); //gibbs sampling的过程
9. v2 = sigmrnd(repmat(rbm.b', opts.batchsize, 1) + h1 * rbm.W);
10. h2 = sigmrnd(repmat(rbm.c', opts.batchsize, 1) + v2 * rbm.W');
11. //Contrastive Divergence 的过程
12. //这和《Learning Deep Architectures for AI》里面写cd-1的那段pseudo code是一样的
13. c1 = h1' * v1;
14. c2 = h2' * v2;
15. //关于momentum，请参看Hinton的《A Practical Guide to Training Restricted Boltzmann Machines》
16. //它的作用是记录下以前的更新方向，并与现在的方向结合下，跟有可能加快学习的速度
17. rbm.vW = rbm.momentum * rbm.vW + rbm.alpha * (c1 - c2) / opts.batchsize;
18. rbm.vb = rbm.momentum * rbm.vb + rbm.alpha * sum(v1 - v2)' / opts.batchsize;
19. rbm.vc = rbm.momentum * rbm.vc + rbm.alpha * sum(h1 - h2)' / opts.batchsize;
20. //更新值
21. rbm.W = rbm.W + rbm.vW;
22. rbm.b = rbm.b + rbm.vb;
23. rbm.c = rbm.c + rbm.vc;
25. err = err + sum(sum((v1 - v2) .^ 2)) / opts.batchsize;
26. end
27. end
DBNdbnunfoldtonn.m

DBN的每一层训练完成后自然还要把参数传递给一个大的NN，这就是这个函数的作用
[cpp] view plain copy
1. function nn = dbnunfoldtonn(dbn, outputsize)
2. %DBNUNFOLDTONN Unfolds a DBN to a NN
3. % outputsize是你的目标输出label，比如在MINST就是10，DBN只负责学习feature
4. % 或者说初始化Weight，是一个unsupervised learning，最后的supervised还得靠NN
5. if(exist('outputsize','var'))
6. size = [dbn.sizes outputsize];
7. else
8. size = [dbn.sizes];
9. end
10. nn = nnsetup(size);
11. %把每一层展开后的Weight拿去初始化NN的Weight
12. %注意dbn.rbm{i}.c拿去初始化了bias项的值
13. for i = 1 : numel(dbn.rbm)
14. nn.W{i} = [dbn.rbm{i}.c dbn.rbm{i}.W];
15. end
16. end
最后fine tuning就再训练一下NN就可以了
总结

      还是那句话，本文只是梳理一下学习路线，具体的东西还是要靠paper
      dbn主要的关键就是rbm，推荐几篇经典的文章吧，rbm可是Hinton的宝贝啊
      其中涉及到MCMC，Contrastive divergence，感觉比Autoencoder难理解多了
          [1] An Introduction to Restricted Boltzmann Machines
          [2] Learning Deep Architectures for AI                                                     Bengio大作啊
          [3] A Practical Guide to Training Restricted Boltzmann Machines              上面提到过，比较细致
          [4] A learning Algorithm for Boltzmann Machines                                      Hinton的
分享到：
上一篇：【面向代码】学习 Deep Learning（一）Neural Network
下一篇：【面向代码】学习 Deep Learning（三）Convolution Neural Network(CNN)

顶: 0

踩: 0

查看评论

2楼 _呕哑嘲哳 2013-07-28 12:35发表 [回复]

1. 图模型上的区别就是有向与无向具体在算法上是如何体现的呢
2. 这样DBN就只是实现了用来初始化后面的fine tuning和分类实现还是必须由NN/BP来实现

Re: Dark_Scope 2013-07-28 12:54发表 [回复]

回复Dan7291125：1.其实我也不是很了解，我目前只看了DBN，你可以看看这个，may help：http://www.sigvc.org/bbs/thread-524-1-1.html
2.是的，SAE其实也是这样的

Re: _呕哑嘲哳 2013-07-29 09:24发表 [回复]: 回复Dark_Scope：Thanks~

1楼 _呕哑嘲哳 2013-07-28 10:44发表 [回复]

请问一下两个问题：
1. DBN中每层rbm是单独训练叠加的 DBM中每层rbm不是独立的，这是DBN和DBM的区别所在么？
2. DBN中的每层rbm单独训练，得到的参数用来直接初始化NN的参数和用RBM逐层非监督建立结构再用NN进行监督调整其实是一个意思吧？

Re: Dark_Scope 2013-07-28 12:04发表 [回复]: 回复Dan7291125：1.yeah，图模型不一样
2.初始化之后还要训练NN来调整，叫做fine tuning，之前做的只是初始化参数值而已

查看全文

相关阅读:
CUDA C Best Practices Guide 在线教程学习笔记 Part 1
0_Simple__simpleCallback
0_Simple__simpleAtomicIntrinsics + 0_Simple__simpleAtomicIntrinsics_nvrtc
0_Simple__simpleAssert + 0_Simple__simpleAssert_nvrtc
0_Simple__matrixMulDrv
0_Simple__matrixMulCUBLAS
0_Simple__matrixMul + 0_Simple__matrixMul_nvrtc
0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc
0_Simple__fp16ScalarProduct
0_Simple__cudaOpenMP

原文地址：https://www.cnblogs.com/huashiyiqike/p/3251133.html

转【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)

【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)

DBNdbnsetup.m

DBNdbntrain.m

DBN bmtrain.m

DBNdbnunfoldtonn.m

总结