Task8.循环和递归神经网络

zoukankan html css js c++ java

Task8.循环和递归神经网络

RNN提出的背景：

RNN通过每层之间节点的连接结构来记忆之前的信息，并利用这些信息来影响后面节点的输出。RNN可充分挖掘序列数据中的时序信息以及语义信息，这种在处理时序数据时比全连接神经网络和CNN更具有深度表达能力，RNN已广泛应用于语音识别、语言模型、机器翻译、时序分析等各个领域。

RNN的训练方法——BPTT算法（back-propagation through time）
       BPTT（back-propagation through time）算法是常用的训练RNN的方法，其实本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。BPTT的中心思想和BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。综上所述，BPTT算法本质还是BP算法，BP算法本质还是梯度下降法，那么求各个参数的梯度便成了此算法的核心。  这里寻优的参数有三个，分别是U、V、W。与BP算法不同的是，其中W和U两个参数的寻优过程需要追溯之前的历史数据，参数V相对简单只需关注目前，那么我们就来先求解参数V的偏导数。

这个式子看起来简单但是求解起来很容易出错，因为其中嵌套着激活函数函数，是复合函数的求导过程。RNN的损失也是会随着时间累加的，所以不能只求t时刻的偏导。  W和U的偏导的求解由于需要涉及到历史数据，其偏导求起来相对复杂，我们先假设只有三个时刻，那么在第三个时刻 L对W的偏导数为：

这个式子看起来简单但是求解起来很容易出错，因为其中嵌套着激活函数函数，是复合函数的求导过程。RNN的损失也是会随着时间累加的，所以不能只求t时刻的偏导。  W和U的偏导的求解由于需要涉及到历史数据，其偏导求起来相对复杂，我们先假设只有三个时刻，那么在第三个时刻 L对W的偏导数为：

双向RNN:

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。

LSTM

上面介绍的RNN模型，存在“长期依赖”的问题。模型在预测“大海的颜色是”下一个单词时，很容易判断为“蓝色”，因为这里相关信息与待预测词的位置相差不大，模型不需要记忆这个短句子之前更长的上下文信息。但当模型预测“十年前，北京的天空很蓝，但随着大量工厂的开设，废气排放监控不力，空气污染开始变得越来越严重，渐渐地，这里的天空变成了”下一个单词时，依靠“短期依赖”就不能很好的解决这类问题，因为仅仅根据“这里的天空变成了”这一小段，后一个单词可以是“蓝色”，也可以是“灰色”。上节描述的简单RNN结构可能无法学习到这种“长期依赖”的信息，LSTM可以很好的解决这类问题。

与简单RNN结构中单一tanh循环体不同的是，LSTM使用三个“门”结构来控制不同时刻的状态和输出。所谓的“门”结构就是使用了sigmoid激活函数的全连接神经网络和一个按位做乘法的操作，sigmoid激活函数会输出一个0~1之间的数值，这个数值描述的是当前有多少信息能通过“门”，0表示任何信息都无法通过，1表示全部信息都可以通过。其中，“遗忘门”和“输入门”是LSTM单元结构的核心。下面我们来详细分析下三种“门”结构。

遗忘门，用来让RNN“忘记”之前没有用的信息。比如“十年前，北京的天空是蓝色的”，但当看到“空气污染开始变得越来越严重”后，RNN应该忘记“北京的天空是蓝色的”这个信息。遗忘门会根据当前时刻节点的输入Xt、上一时刻节点的状态C(t-1)和上一时刻节点的输出h(t-1)来决定哪些信息将被遗忘。

输入门，用来让RNN决定当前输入数据中哪些信息将被留下来。在RNN使用遗忘门“忘记”部分之前的信息后，还需要从当前的输入补充最新的记忆。输入门会根据当前时刻节点的输入Xt、上一时刻节点的状态C(t-1)和上一时刻节点的输出h(t-1)来决定哪些信息将进入当前时刻节点的状态Ct，比如看到“空气污染开始变得越来越严重”后，模型需要记忆这个最新的信息。

输出门，LSTM在得到最新节点状态Ct后，结合上一时刻节点的输出h(t-1)和当前时刻节点的输入Xt来决定当前时刻节点的输出。比如当前时刻节点状态为被污染，那么“天空的颜色”后面的单词应该是“灰色”。

在TensorFlow中可以使用lstm = rnn_cell.BasicLSTMCell(lstm_hidden_size)来声明一个LSTM结构。

GRU:

GRU作为LSTM的一种变体，将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单，也是非常流行的变体。

梯度消失、爆炸解决

RNN关于Gradient Vanish，本秩原因是因为矩阵高次幂导致的。在RNN的训练z中，更新参数的方式是BPTT(Back Propagation Through Time)。其计算梯度的方式和DNN中的BP类似，所以会存在Gradient Vanish和Gradient Explode。

下面介绍LSTM如何能够避免Gradient Vanish：

对于LSTM,有如下公式： $c^{t}=f^{t}odot c^{t-1}+i^{t}odot g^{t}$

模仿 RNN，我们对 LSTM 计算 $delta^{k-1} = {partial C^t}/{partial c^{k-1}}$ ，有

                                                                                          $egin{align} delta^{k-1} & = frac{partial C^t}{partial c^{k-1}} \ & = frac{partial C^t}{partial c^{k}} frac{partial c^{k}}{partial c^{k-1}} \ & = delta^{k} frac{partial c^{k}}{partial c^{k-1}} \ & = delta^{k} (f^t+...) \ end{align}$

可以看出当 $f^t = 1$ 时，就算其余项很小，梯度仍然可以很好地传导到上一个时刻，此时即使层数较深也不会发生 Gradient Vanish 的问题；当 $f^t = 0$ 时，即上一时刻的信号不影响到当前时刻，则此项也会为0； $f^t$ 在这里控制着梯度传导到上一时刻的衰减程度，与它 Forget Gate 的功能一致。

对于 Gradient Explode，一般处理方法就是将梯度限制在一定范围内，即 Gradient Clipping。可以是通过阈值，也可以做动态的放缩.

Text-RNN

论文：Recurrent Neural Network for Text Classification with Multi-Task Learning 利用CNN进行文本分类，说到底还是利用卷积核寻找n-gram特征。卷积核的大小是超参。而RNN基本是处理文本信息的标配了，因为RNN先天就是为处理时间序列而设计的，它通过前后时刻的输出链接保证了“记忆”的留存。但RNN循环机制过于简单，前后时刻的链接采用了最简单的f=activate(ws+b) f=activate(ws+b)f=activate(ws+b)的形式，这样在梯度反向传播时出现了时间上的连乘操作，从而导致了梯度消失和梯度爆炸的问题。RNN的变种LSTM/GRU在一定程度上减缓了梯度消失和梯度爆炸问题，因此现在使用的其实要比RNN更多。
利用RNN做文本分类也比较好理解。对于英文，都是基于词的。对于中文，首先要确定是基于字的还是基于词的。如果是基于词，要先对句子进行分词。之后，每个字/词对应RNN的一个时刻，隐层输出作为下一时刻的输入。最后时刻的隐层输出h_ThTcatch住整个句子的抽象特征，再接一个softmax进行分类。

RCNN

参考：https://blog.csdn.net/yanyiting666/article/details/88620434

https://blog.csdn.net/hongyesuifeng/article/details/90552778

查看全文

相关阅读:
基于redis实现的延迟消息队列
 Redis实现求交集操作结果缓存的设计方案
 限流算法之漏桶算法、令牌桶算法
 Apache设置防DDOS模块mod_evasive
FastCGI技术
 详解强大的SQL注入工具——SQLMAP
nginx根据域名做http,https分发
 Nginx配置SSL证书部署HTTPS网站
 JProfiler学习笔记
 Mysql压测工具mysqlslap 讲解

原文地址：https://www.cnblogs.com/NPC-assange/p/10921696.html