zoukankan      html  css  js  c++  java
  • RNN

    目录

    1. 为什么需要RNN

    2. LSTM的结构

    3. LSTM网络

    4. RNN 的评估

    5. RNN的应用

    6. Attention-based model

    1. 为什么需要RNN?

    传统的神经网络,一个输入会对应一个输出,如果输入不变,那输出也不会变。如下,一个Tappei是属于目的地类的,但换一句话又属于出发地类。这个时候就需要神经网络具有记忆功能。

    实际上,循环神经网络是一类神经网络,一类具有记忆功能的神经网络。一类把上一个训练的结果带到下一次训练的神经网络

    这就是一个简单的RNN,它有一个隐层,这个隐层的输出会被带到下一次训练中,和下一次训练的输入数据共同作为网络的输入

    wps103

    wps104

    wps105

    这是一个双向的RNN,这样的好处是不仅可以看到上文,还可以看到下文

    wps106

    2. LSTM的结构

    下面,LSTM隆重登场!

    LSTM是一种RNN, 实际上,现在大家讲在做RNN的时候,其实他们指的就是在做 LSTM。 LSTM已经成为了一种标准。

    这是LSTM的一个Memory Cell, 也就是一个单元:

    wps107

    LSTM的一个memory cell  一共有4个输入,一个输出。

    wps108

    这种网络结构的好处就是 可以控制一个词是否应该输入,上一个词的信息是否应该被遗忘以及是否应该输出

    这是一个LSTM的栗子:

    wps109

    wps110

    wps111

    //篇幅原因,还有几幅图就不展示了,可以前往李老师的RNN part I 的ppt里面查看。

    3. LSTM网络

    一个LSTM网络可以有多个memory cell (先只关注只有一层的情况)

    wps112

    我们注意到,相比于上面介绍的简单的RNN,使用了LSTM的网络的参数会是前者的4倍,因为一个memory cell有4 个输入嘛。

    这里李老师又提到了这种网络,他是先对输入乘以一个矩阵,把这个矩阵叫做transfomer,然后这个输入就由一个任意维的向量变成了一个n维的向量。这里的n等于memory cell 的数量。然后这个n维向量的每一维分别作为不同的memory cell 的input 输入。 同理创造另外3个n维向量,同理这些向量的每一维作为不同memory cell 相同位置的输入。

    wps113

    wps114

    x^t表示 t 时刻的输入

    上面这个图以及很复杂了,但实际上在做LSTM的时候,可能还要把输出和memory(他们把这个拉memory的方式叫做peephole)拉过来做输入

    wps115

    通常情况下LSTM不止又一层,可能会叠5--6层。这个是叠2层的样子:

    wps116

    最后,放一张图轻松一下:

    wps117

    如果看不懂的话,可以回去看一看李老师的视频,讲的很清楚,一遍看不懂就看两遍。

    wps118

    4. RNN的评估

    RNN的代价函数就是每一个时间点的output向量和target向量的距离之和。

    wps119

    RNN也是用梯度下降算法来训练的,也是用到BP算法来求偏导,不过由于RNN是对sequence 训练,所以需要考虑时间的信息,所以这里的BP算法是做了一些改变的,叫做BPTT。具体过程李老师没有讲解。

    wps120

    有个不好的消息,RNN并不好训练

    我们可以从这个实验数据看出,随着梯度下降算法的运行,代价函数的值是没有逐渐变小,而是剧烈波动。。。09年RNN刚出来的时候,很长一段时间,只有RNN的作者能把RNN训练好。

    wps121

    后来分析发现,出现这种情况是因为代价函数的集合图形很崎岖

    wps122

    那么崎岖的原因是什么呢?

    李老师没有讲BPTT,我们不知道参数的梯度,所以李老师也没有从数学的角度来讲原因,这是一个实验的角度来将的为什么这么崎岖。

    下面这个RNN,

    当w这个参数等于1 时,最后输出为1,

    当w增大一点点的时候,输出会变大很多,

    当w减小一点点的时候,输出会变为接近于0

    那么此时就会想,它不是梯度很大嘛,我把学习率 设置小一点就行了,

    但是当w从0.99减到0.01 时,代价函数的输出都接近与0,此时梯度很小。

    从这个例子可以看出,w的变化,可能造成代价函数很小的变化,可能造成天崩地裂的变化。

    总结,RNN代价函数很崎岖不平时因为:同样的weight在不同的时间点会被反复地使用。

    wps123

    那么如何解决gradient 时大时小的问题呢?

    LSTM可以避免gradient 变化过小的问题。(但是不可以解决gradient变化过大的问题)。所以可以放心的把学习率设置的比较大。

    为什么呢?

    因为普通的RNN每次memory都会被重置,而LSTM每次都是memory 的值乘以某一个值再与input的值相加,所以如果weight 可以影响memory里面的值的话,这个影响会一直存在。不想RNN每次都会被format掉 。(当然这是不考虑forget的问题,一开始LSTM的版本就是为了解决gradient的gradient vanishing问题,它是没有forget gate的,现在forget的bias会设置的比较大,保证一般forget gate都不起作用)

    wps124

    还有其他网络模型可以解决loss function 剧烈波动的问题,贴出来知道就行了

    wps125

    5. RNN的应用:

    26‘40’‘

    多对一

    wps126

    多对多:

    wps127

    CTC模型

    wps128

    多对多-不知道谁长谁短

    wps129

    wps130

    sequence to sequenct

    wps131

    编码器:

    wps132

    不仅对sequence做编码,还对句子做编码,就问你怕不怕

    wps133

    对音频的编码

    编码和解码的网络时一起训练的

    wps134

    6. Attention-based model

    可以想想成RNN 的进阶版

    wps135

    wps136

    Reference:

    李宏毅,Structured Learning: Recurrent Neural Network, http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

  • 相关阅读:
    【刷题】BZOJ 3626 [LNOI2014]LCA
    【刷题】UOJ #207 共价大爷游长沙
    【刷题】COGS 2701 动态树
    【刷题】BZOJ 4530 [Bjoi2014]大融合
    【刷题】BZOJ 2959 长跑
    【刷题】BZOJ 1969 [Ahoi2005]LANE 航线规划
    【刷题】BZOJ 4998 星球联盟
    【刷题】BZOJ 1977 [BeiJing2010组队]次小生成树 Tree
    【刷题】BZOJ 4817 [Sdoi2017]树点涂色
    获取元素 在网页中的 坐标
  • 原文地址:https://www.cnblogs.com/rainwelcome/p/11455623.html
Copyright © 2011-2022 走看看