初始化的目的就是,设置一个很接近0的的值,以方便参数update。 Gaussian 是最先想到的一种可以实现一个很接近0的方法,而且带有较强的随机性,但也具有中央分布的特性。 Xavier 可以认为是Gaussian的一种改进,动态版的Gaussian,Reasonable的初始化,线性激活下Mathematical derivation,但是ReLU下可能会break网络的nonlinearity。 so, 凯明的MSRA = Xavier/2,解决了这个问题。