关于RNN架构的对比

zoukankan html css js c++ java

关于RNN架构的对比

循环神经网络（RNN）是一种非常强大的序列模型，通常很难训练。长短期记忆（LSTM）是一种特定的RNN架构，其设计使其易于训练。虽然LSTM在实践中取得了巨大成功，但它的结构似乎是临时的，因此尚不清楚它是否是最优的，并且其各个组成部分的重要性也不清楚。

在这项工作中，我们旨在确定LSTM体系结构是最佳的还是存在更好的体系结构。我们进行了全面的架构搜索，评估了超过一万种不同的RNN架构，并确定了在某些而非全部任务上性能均优于LSTM和最近引入的门控循环单元（GRU）的架构。 我们发现，在LSTM的“遗忘门”上加上1的偏置会缩小LSTM和GRU之间的差距。

参考文献

R. Jozefowicz, W. Zaremba, and I. Sutskever. An empirical exploration of recurrent network architectures. In ICML, 2015.

博客解读

https://blog.csdn.net/weixin_39653948/article/details/104540621

https://blog.csdn.net/kaka19880812/article/details/63262621

结论

文章作者做了多组实验检测各种不同结构的RNN在不同的问题上的表现，得到的结论包括：

（1）GRU在除了语言模型的其他地方比LSTM表现好
（2）LSTM with dropout在语言模型上表现好，有大的遗忘门偏置后表现更好
（3）在LSTM中，各个门的重要性为：遗忘门>输入门>输出门
（4）遗忘门在除了语言模型外的情况下影响非常大

Bayer等人先前曾进行过RNN的架构搜索。（2009）。他们试图解决相同的问题，但是他们使用小型模型（5个单位）进行的实验更少了。他们只考虑了具有长期依赖性的综合性问题，并且能够找到在这些任务上优于LSTM的体系结构。格雷夫等人的同时工作。（2015年）关于LSTM的不同门的重要性也得出了类似的结论。

为了找到可靠地胜过LSTM的体系结构，我们评估了各种递归神经网络体系结构。尽管在某些问题上，有些架构的性能优于LSTM，但我们无法找到在所有实验条件下都能始终击败LSTM和GRU的架构。

对这项工作的主要批评是，我们的搜索程序未能找到与其父代有显着差异的体系结构。确实，回顾一下三个性能最高的体系结构，我们发现它们都与GRU相似。尽管更长的搜索过程会发现更多不同的体系结构，但是评估新候选者的高昂成本大大降低了这样做的可行性。尽管如此，一个合理的搜索过程并不能比LSTM显着改善这一事实表明，至少，如果存在比LSTM更好的体系结构，那么找到它们并不是一件容易的事。

重要的是，添加大小为1的偏置可以显着提高LSTM在落后于GRU和MUT1的任务上的性能。因此，我们建议在每个应用程序的每个LSTM的遗忘门上增加一个偏置1；这很容易做到，通常可以更好地完成我们的任务。这项调整是对我们开始发现的LSTM的简单改进。

最近的对比研究表明，GRU和LSTM性能接近。

但是在参数相同的情况下，二者精度相似，但是GRU训练速度更快且不容易发散。

查看全文

相关阅读:
一分钟了解Docker
RobotFramework
RobotFramework不同版本优劣势
 从零学习基于Python的RobotFramework自动化
 Python 接口自动化常用方法封装
 (转载)解决MySql 数据库提示：1045 access denied for user 'root'@'localhost' using password yes
(转载)html中div使用自动高度
 javascriptDOM对象之scrollTo()方法,滚动到页面指定位置
 CSS3之响应式布局
 Html5NodeJs安装less之千辛万苦CMD系列

原文地址：https://www.cnblogs.com/jiangkejie/p/13397071.html

关于RNN架构的对比

参考文献

博客解读

结论