1998_Efficient Backprop笔记
A few practical tricks
1. Stochastic vs Batch learning
data:image/s3,"s3://crabby-images/6bd64/6bd6473daa8e707acf3d25cff60515a52f18b73a" alt=""
data:image/s3,"s3://crabby-images/4f007/4f00798bb5c627bd3068a5134d993b9239d0b831" alt=""
在最小值附近震荡的幅度与学习速率成比例,为了减小震荡,可以减小学习速率或者使用自适应的batch size。
有理论证明以下这种形式的学习速率最好:
其中t是类别数,c是一个常量,实际上,这个速率可能太快。
另一种消除噪声的方法是用mini-batch,就是开始用一个小的batch size,然后随着训练进行增加。但是如何增加和调整学习速率一样困难。
2. Shuffling the examples
网络从未知样本学习最快,因此要在每一次迭代选择最不熟悉的样本。这个方法只适用于SGD,最简单的方式是选择连续的不同类的样本。
data:image/s3,"s3://crabby-images/a4c3a/a4c3a0fe0fea9b68c2cca51ff9a62bf898de8a0f" alt=""
3. Normalizing the inputs
data:image/s3,"s3://crabby-images/8fc92/8fc9280a84b68fbdeec93524a4e282aa731aa55c" alt=""
4. The Sigmoid
data:image/s3,"s3://crabby-images/05382/053822b6db4b17b5320c010f7df4c04c7b112f46" alt=""
data:image/s3,"s3://crabby-images/b36e7/b36e7ee5d00a25410811675b3b33a672b1a18b00" alt=""
用对称的sigmoid函数有一个潜在的问题,那就是误差平面会变得很平坦,因此应该避免用很小的值初始化weights。
5. Choosing Target Values
data:image/s3,"s3://crabby-images/aeece/aeececb4e6c575b3aa003e08ca971df5d743bcd3" alt=""
6. Initializing the weights
data:image/s3,"s3://crabby-images/aab40/aab404b1270446d4f9878c7a437262e7c0f6204f" alt=""
7. Choosing Learning Rates
一般情况下权重向量震荡时减小学习速率,而始终保持稳定的方向则增加,但是不适用于SGD和online learning,因为他们始终在震荡。
data:image/s3,"s3://crabby-images/e561c/e561ccd5e658dd1cda48bf1f6bbc09fe1a5609be" alt=""
Momentum:
其中u是momentum的强度,当误差平面是非球形(nonspherical),它增加了收敛速度因为它减小了高曲率方向的step,从而在低曲率部分增加了学习速率的影响。它通常在batch learning中比SGD更有效。
Adaptive Learning Rates:
data:image/s3,"s3://crabby-images/5ccf4/5ccf4b777c1bc5faf2156337a7e9534a1e699abf" alt=""
data:image/s3,"s3://crabby-images/e6620/e6620b08c71bad94c40ab8b100ed488365ae70b0" alt=""
这个方法实际上很容易实现,其实就是track公式18中的矩阵,平均梯度r。这个矩阵的norm控制学习速率的大小。
8. Radial Basis Functions vs Sigmoid Units
RBF神经网络:
sigmoid单元可以覆盖整个输入空间,但是一个RBF单元只能覆盖一个小的局部空间,因此它的学习更快。但是在高维空间中它需要更多的单元去覆盖整个空间,因此RBF适合作为高层而sigmoid适合作为低层单元。
Convergence of Gradient Descent
1. A little theory
data:image/s3,"s3://crabby-images/0db6d/0db6d2aa4b3032f5406e63ba5f1b23e29d734263" alt=""
具体理论分析见文章。
结论:
如果对所有的weight约定一个学习速率,那么
data:image/s3,"s3://crabby-images/4544e/4544e051c645002012241c5bdae195054b54f27c" alt=""
2. Two examples
data:image/s3,"s3://crabby-images/d3c6d/d3c6d7c034724a082533e4cf739ae1868025da65" alt=""
data:image/s3,"s3://crabby-images/ba2b5/ba2b53e7d2137bf4cf85a709f702cc203b35ec59" alt=""
data:image/s3,"s3://crabby-images/d4e92/d4e92c23cb75c361a26efd5258a5b54fd4586b47" alt=""
b. Multilayer Network
data:image/s3,"s3://crabby-images/7877f/7877f94be64e0e8b3f64faccb6d7379f95dcd827" alt=""
data:image/s3,"s3://crabby-images/d9e9b/d9e9b1a3b197e7a3fd6ac56a830b7f3d13e273fe" alt=""
3. 以上的理论可以证明这几个tricks: