神经网络训练中的梯度消失与梯度爆炸

zoukankan html css js c++ java

神经网络训练中的梯度消失与梯度爆炸

层数比较多的神经网络模型在训练时也是会出现一些问题的，其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。

例如，对于下图所示的含有3个隐藏层的神经网络，梯度消失问题发生时，接近于输出层的hidden layer 3等的权值更新相对正常，但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。

而这种问题为何会产生呢？以下图的反向传播为例（假设每一层只有一个神经元且对于每一层 $y_i=sigmaleft(z_i ight)=sigmaleft(w_ix_i+b_i ight)$ ，其中 $sigma$ 为sigmoid函数）

可以推导出

$egin{align} &frac{partial C}{partial b_1}=frac{partial C}{partial y_4}frac{partial y_4}{partial z_4}frac{partial z_4}{partial x_4}frac{partial x_4}{partial z_3}frac{partial z_3}{partial x_3}frac{partial x_3}{partial z_2}frac{partial z_2}{partial x_2}frac{partial x_2}{partial z_1}frac{partial z_1}{partial b_1}\ &=frac{partial C}{partial y_4}sigma'left(z_4 ight)w_4sigma'left(z_3 ight)w_3sigma'left(z_2 ight)w_2sigma'left(z_1 ight) end{align}$

而sigmoid的导数 $sigma'left(x ight)$ 如下图

可见， $sigma'left(x ight)$ 的最大值为 $frac{1}{4}$ ，而我们初始化的网络权值 $|w|$ 通常都小于1，因此 $|sigma'left(z ight)w|leqfrac{1}{4}$ ，因此对于上面的链式求导，层数越多，求导结果 $frac{partial C}{partial b_1}$ 越小，因而导致梯度消失的情况出现。这样，梯度爆炸问题的出现原因就显而易见了，即 $|sigma'left(z ight)w|>1$ ，也就是 $w$ 比较大的情况。但对于使用sigmoid激活函数来说，这种情况比较少。因为 $sigma'left(z ight)$ 的大小也与 $w$ 有关（ $z=wx+b$ ），除非该层的输入值 $x$ 在一直一个比较小的范围内。

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题，可以考虑用ReLU激活函数取代sigmoid激活函数。另外，LSTM的结构设计也可以改善RNN中的梯度消失问题。

查看全文

相关阅读:
Java实现微生物增殖
 HttpClient学习整理
 在Eclipse中使用JUnit4进行单元测试（初级篇）
http post提交数组
 postman测试post请求参数为json类型
 【springmvc】传值的几种方式&&postman接口测试
 postman的使用方法详解！最全面的教程
 Gson 使用总结高级用法
 各个JSON技术的比较（Jackson，Gson，Fastjson）的对比
 Session保存用户名到Session域对象中

原文地址：https://www.cnblogs.com/wqbin/p/11070673.html