zoukankan      html  css  js  c++  java
  • 关于RNN架构的对比

    循环神经网络(RNN)是一种非常强大的序列模型,通常很难训练。 长短期记忆(LSTM)是一种特定的RNN架构,其设计使其易于训练。 虽然LSTM在实践中取得了巨大成功,但它的结构似乎是临时的,因此尚不清楚它是否是最优的,并且其各个组成部分的重要性也不清楚。

    在这项工作中,我们旨在确定LSTM体系结构是最佳的还是存在更好的体系结构。 我们进行了全面的架构搜索,评估了超过一万种不同的RNN架构,并确定了在某些而非全部任务上性能均优于LSTM和最近引入的门控循环单元(GRU)的架构。 我们发现,在LSTM的“遗忘门”上加上1的偏置会缩小LSTM和GRU之间的差距。

    参考文献

    R. Jozefowicz, W. Zaremba, and I. Sutskever. An empirical exploration of recurrent network architectures. In ICML, 2015. 

    博客解读

    https://blog.csdn.net/weixin_39653948/article/details/104540621

    https://blog.csdn.net/kaka19880812/article/details/63262621

    结论

    文章作者做了多组实验检测各种不同结构的RNN在不同的问题上的表现,得到的结论包括:

    (1)GRU在除了语言模型的其他地方比LSTM表现好
    (2)LSTM with dropout在语言模型上表现好,有大的遗忘门偏置后表现更好
    (3)在LSTM中,各个门的重要性为:遗忘门>输入门>输出门
    (4)遗忘门在除了语言模型外的情况下影响非常大

    Bayer等人先前曾进行过RNN的架构搜索。 (2009)。 他们试图解决相同的问题,但是他们使用小型模型(5个单位)进行的实验更少了。 他们只考虑了具有长期依赖性的综合性问题,并且能够找到在这些任务上优于LSTM的体系结构。 格雷夫等人的同时工作。 (2015年)关于LSTM的不同门的重要性也得出了类似的结论。

    为了找到可靠地胜过LSTM的体系结构,我们评估了各种递归神经网络体系结构。 尽管在某些问题上,有些架构的性能优于LSTM,但我们无法找到在所有实验条件下都能始终击败LSTM和GRU的架构。

    对这项工作的主要批评是,我们的搜索程序未能找到与其父代有显着差异的体系结构。 确实,回顾一下三个性能最高的体系结构,我们发现它们都与GRU相似。 尽管更长的搜索过程会发现更多不同的体系结构,但是评估新候选者的高昂成本大大降低了这样做的可行性。 尽管如此,一个合理的搜索过程并不能比LSTM显着改善这一事实表明,至少,如果存在比LSTM更好的体系结构,那么找到它们并不是一件容易的事。

    重要的是,添加大小为1的偏置可以显着提高LSTM在落后于GRU和MUT1的任务上的性能。 因此,我们建议在每个应用程序的每个LSTM的遗忘门上增加一个偏置1; 这很容易做到,通常可以更好地完成我们的任务。 这项调整是对我们开始发现的LSTM的简单改进。

    最近的对比研究表明,GRU和LSTM性能接近。

    但是在参数相同的情况下,二者精度相似,但是GRU训练速度更快且不容易发散。

  • 相关阅读:
    使用echo $? 查看命令成功执行的原理
    Ubuntu 12.04下NFS安装配置图解
    使用nfsstat命令查看NFS服务器状态
    ORACLE 中rownum和row_number()的使用区别(可指定取sql结果集的第几个数据)
    toad调用存储过程,存储过程调用sql 类
    指纹协查统计sql
    oracle 解锁表
    【转】经典排序算法
    wget 命令用法详解
    Linux 带宽、CPU、内存占用情况
  • 原文地址:https://www.cnblogs.com/jiangkejie/p/13397071.html
Copyright © 2011-2022 走看看