RNN梯度问题 - 走看看

zoukankan html css js c++ java

RNN梯度问题

梯度消失的原因：

在多层网络中，影响梯度大小的因素主要有两个：权重和激活函数的偏导。深层的梯度是多个激活函数偏导乘积的形式来计算，如果这些激活函数的偏导比较小（小于1）或者为0，那么梯度随时间很容易vanishing；相反，如果这些激活函数的偏导比较大（大于1），那么梯度很有可能就会exploding。因而，梯度的计算和更新非常困难。

解决方案：

使用一个合适激活函数，它的梯度在一个合理的范围。LSTM使用gate function，有选择的让一部分信息通过。gate是由一个sigmoid单元和一个逐点乘积操作组成，sigmoid单元输出1或0，用来判断通过还是阻止，然后训练这些gate的组合。所以，当gate是打开的（梯度接近于1），梯度就不会vanish。并且sigmoid不超过1，那么梯度也不会explode。

LSTM的效果：

1、当gate是关闭的，那么就会阻止对当前信息的改变，这样以前的依赖信息就会被学到。

2、当gate是打开的时候，并不是完全替换之前的信息，而是在之前信息和现在信息之间做加权平均。所以，无论网络的深度有多深，输入序列有多长，只要gate是打开的，网络都会记住这些信息。

查看全文

相关阅读:
DEBIAN下中文显示
 SpringMVC整合Quartz实现定时任务以及Tomcat服务执行初始化定时任务
 SpringMVC 配置定时执行任务
 Mybatis update In
mybatis在xml文件中处理大于号小于号的方法
 解决Cannot change version of project facet Dynamic web module to 2.5
android 圆角边框及图片
 Android MotionEvent事件响应机制
 android:configChanges属性
 Android之ScrollView嵌套ListView

原文地址：https://www.cnblogs.com/dhName/p/13192209.html

Copyright © 2011-2022 走看看