关于BP算法在DNN中本质问题的几点随笔 [原创 by 白明] 微信号matthew-bai

zoukankan html css js c++ java

关于BP算法在DNN中本质问题的几点随笔 [原创 by 白明] 微信号matthew-bai

随着deep learning的火爆，神经网络(NN)被大家广泛研究使用。但是大部分RD对BP在NN中本质不甚清楚，对于为什这么使用以及国外大牛们是什么原因会想到用dropout/sigmoid/ReLU/change learnRate/momentum/ASGD/vanishment等问题等呢。要想了解国外大牛的思考过程，需要学习到BP在NN中的本质问题，其中涉及到NN训练对于判决边界如何形成？ASGD为什么尤其在NN中效果比二阶信息效果好？如何选择激活函数合适？为何语音识别中误差函数选择互熵？以及竞争学习和侧抑制怎样使用？等等。讨论下自己的感悟，错误和疏漏的地方请同行朋友不吝赐教，非常感谢！

大家都知道DNN常有overfiting的问题，有人会想到为何有些算法（比如DT/最近邻等）在training data上很快达到100%，而NN却需要不停训练却一直达不到。原因之一是相对训练数据中模式，网络参数过多且不加合理区分，导致判决边界调谐到特定训练数据上，并非表现一般特性。由于初始weight is small, neur执行在线性范围，随着training，nonlinear才逐渐显现，decision boundary变弯。但gradient descent完成之前停止training则可避免overfiting。

其实在dropout被叫响之前，它有个哥们叫weight decay技术，对于非常多weight的NN，along with training，decay all weights。小权值网络更适于做线性判别模型。weight decay具体公式有需要的可以找我。有人会问有价值的weight是不是也会decay。其实BP算法本质能对降低error function意义不大的weight变的越来越小，对于如此小的值，可以完全discard（是不是想起了dropout，呵）。而真正解决问题的weight不会随便被decay。还有些其他本质我们后续再讨论。

对于activation function的选择是个技巧，但有规律可循。其实很多人忽视了sigmoid的2个参数gamma和phi，直接用“裸体的”sigmoid。想了解“穿着衣服的"sigmoid的可以再联系我。如果有prior information，比如分布有GMD引起的，则gaussian形式的函数将是个好选择(有没有想到ReLU的曲线与sigmoid的曲线分布类似，至于对x<0的y限制为0的本质下回分解吧)。没有这些prior时，有三个基本原则(但不是死的)：非线性，saturability，连续光滑性（这点有待再探讨）。nonlinear是提供deep NN比shallow NN强的计算能力的必要条件。saturability限制weight和activation function的上下边界，因而是epoch可以有限。光滑连续性希望f和一阶导在自变量范围内有意义。

momentum的概念来自newton第一定律，在BP算法中引入momentum的目的是允许当误差曲面中存在平坦区时，NN可以更快的速度学习。将随机反向传播中的学习规则修正为包含了之前k次权值更新量的alpha倍。具体公式表达有需要的可以找我。（是不是启发你想到了adagrad/adadelta呢，其实看到公式后你更有启发，呵）。momentum的使用"平均化"了随机学习这种weight的随机更新，增加了稳定性，在加快learning中甚至可以远离常引起错误的平坦区。

误差函数常采用cross entropy，是因为它本质上度量了概率分布间的"距离"。具体公式有需要的可以联系我，一起讨论。此外，如果想得到局部性强的分类器可以考虑闵科夫斯基误差。是的，还有其他物理意义的误差函数，采用哪一种要看用来干什么了。

对于batch learning，online learning, random learning（据悉msra有更多标注语音但就用了2000小时语音训练）仁者见仁智者见智，这也是为什么jeff dean设计DistBelief提供了Downpour和Sandblaster了。当training data巨大时，内存消耗很大（即使分布式的在内存中存的下但要考虑是否必要），工业界使用的NN常采用online或random协议。在batch learning中样本的重复出现提供的信息同随机情况下样本的单次出现一样多，而实际问题并不需要精确复制各个模式以及实际dataset常有高冗余度，batch learning比random learning慢。但不易嵌入到online learning的"二阶技术"却在某些问题上有其他优势。

对于DNN来说，BP层层计算很耗时。二阶导数矩阵(Hesse阵)规模可能又很大。大家知道的拟合较好的方法，如LBFGS、共轭梯度法、变量度量法等，保持了较快的收敛速度。但值得一提的是，对Hesse阵的无偏近似方法Curvature Propagation可以参考ilya的论文哦。从此paper中也可理解下BP与Hesse的"秘密"。

大家都头疼learningRate的选择，其实这个与上述讨论的多个方面有关系，例如NN的结构、activation function形式、momentum策略、decay方式、期望迭代的总次数、优化的方式、期望目标分类器的表现等等。有一点，我们可以利用误差的二阶导数来确定learning rate。也可以利用二阶信息对NN中unnecessary weight的消去做指导。

未完待续。

查看全文

相关阅读:
HDU 2639 Bone Collector II (01背包，第k解)
POJ 2184 Cow Exhibition 奶牛展（01背包，变形）
hihoCoder #1165 : 益智游戏 (挑战赛11 B题)
UVA 562 Dividing coins 分硬币（01背包，简单变形）
POJ Charm Bracelet 挑饰品 (常规01背包)
hiho一下第四十四周博弈游戏·Nim游戏（直接公式解）
UVA 624 CD（01背包，要记录路径）
118 Pascal's Triangle 帕斯卡三角形杨辉三角形
 117 Populating Next Right Pointers in Each Node II 每个节点的右向指针 II
116 Populating Next Right Pointers in Each Node 每个节点的右向指针

原文地址：https://www.cnblogs.com/matthewbai/p/4126551.html