梯度消失与梯度爆炸---如何选择随机初始权重 - 走看看

zoukankan html css js c++ java

梯度消失与梯度爆炸---如何选择随机初始权重
梯度消失与梯度爆炸

当训练神经网络时，导数或坡度有时会变得非常大或非常小，甚至以指数方式变小，这加大了训练的难度

这里忽略了常数项b。为了让z不会过大或者过小，思路是让w与n有关，且n越大，w应该越小才好。这样能够保证z不会过大。

1.如果激活函数是tanh，一般选择下面的初始化方法
```
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1]) 
```
2.如果激活函数是ReLU，权重w的初始化一般令其方差为：
```
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]) 
```
3.除此之外，Yoshua Bengio提出了另外一种初始化w的方法，令其方差为：
```
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]*n[l]) 
```
至于选择哪种初始化方法因人而异，可以根据不同的激活函数选择不同方法。
查看全文

相关阅读:
10.15
10.14
11.12
10.10
10.9
如何向jar包里写文件
 mycat的配置文件
 启动spring boot打成的zip包脚本
 通俗易懂的rpc原理
 当Mockito遭遇使用注解注入的变量

原文地址：https://www.cnblogs.com/nxf-rabbit75/p/9807643.html

热门文章
SSL
HTTPS 原理详解
 Cookie 知识点收集
 登录态，票据和token是个什么玩意儿？
保持会话
 10.21
并查集
 10.20
10，19
10.17

Copyright © 2011-2022 走看看