Xavier初始化
如果前一层的节点数为n,则初始值使用标准差为$frac{{ m{1}}}{{sqrt n }}$的高斯分布.
Xavier初始值是以激活函数是线性函数为前提而推导出来的。因为sigmoid函数和 tanh函数左右对称,且中央附近可以视作线性函数,所以适合使用Xavier初始值。
He初始值
当激活函数使用ReLU时,一般推荐使用ReLU专用的初始值,也就是Kaiming He等人推荐的初始值,也称为“He初始值” 。当前一层的节点数为n时, He初始值使用标准差为$frac{{ m{2}}}{{sqrt n }}$的高斯分布。当Xavier初始值是$frac{{ m{1}}}{{sqrt n }}$时,(直观上)可以解释为,因为ReLU的负值区域的值为0,为了使它更有广度,所以需要2倍的系数 。
参考博客
https://blog.csdn.net/manong_wxd/article/details/78734725