参考:
https://blog.csdn.net/VictoriaW/article/details/73000632
https://blog.csdn.net/dss_dssssd/article/details/83959474
https://ptorch.com/docs/1/nn-init
https://prateekvjoshi.com/2016/03/29/understanding-xavier-initialization-in-deep-neural-networks/
https://zhuanlan.zhihu.com/p/27919794
文章:《Understanding the difficulty of training deep feedforward neural networks》
摘要
尽管在2006年之前,似乎没有成功地训练深度多层神经网络,但是从那以后,已经显示出几种算法可以成功地训练它们,并且实验结果表明,较深层的架构与较不深层的架构相比具有优越性。所有这些实验结果都是通过新的初始化或训练机制获得的。我们的目标是更好地理解为何深度学习神经网络从随机初始化得到的标准梯度下降效果不佳,以便更好地了解这些最近的相对成功的算法并在将来帮助设计更好的算法。我们首先观察非线性激活函数的影响。我们发现logistic sigmoid activation由于其平均值而不适用于具有随机初始化的深层网络,这会特别导致顶部隐藏层达到饱和。出乎意料的是,我们发现饱和单位可以自行移出饱和,尽管速度很慢,并且可以解释训练神经网络时有时会看到的平稳状态。我们发现,饱和程度较低的新非线性通常会是有益的。最后,我们研究了激活和梯度在层间以及训练过程中如何变化,以为当与每一层关联的雅可比行列式的奇异值远非1时训练可能会更加困难。基于这些考虑,我们提出了一种新的初始化方法带来更快收敛的方案。