zoukankan      html  css  js  c++  java
  • 论文阅读 | RoBERTa: A Robustly Optimized BERT Pretraining Approach

    RoBERTa: A Robustly Optimized BERT Pretraining Approach. Yinhan Liu, Myle Ott, Naman Goyal, et al. 2019

    BERT提出之后,有很多后续工作XLNet、ALICE、XLM、MT-DNN相继被提出,成绩都在BERT的基础上往上提升了一点点。然而本文认为那是因为BERT其实根本没有得到充分的训练(否则成绩和这些后来居上者相当),为此本文从模型设计选择(design choice)、训练策略、语料等方面入手,重新对BERT进行了预训练,得到RoBERTa,实验结果表明RoBERTa在GLUE、RACE和SQuAD都达到了SOTA.

    主要工作

    RoBERTa在每个部分都做了一点点修改,除了Text Encoding外其他的小修改都得到了轻微的提升,最后它将所有的修改合在一起得到最佳模型。具体修改包括:

    • 修改了超参数:将adam的(eta_2)参数从0.999改为0.98
    • 加入了混合精度
    • 加大batch size:从BERT的256改为2K甚至8K,训练步数从1M降到500K
    • 在更长的序列上训练,修改输入格式:FULL-SENTENCES+移除NSP任务
    • 将BERT静态遮掩改为动态遮掩
    • 增加新的预训练数据集CC-NEWS,语料从16G文本到160G文本
    • Text Encoding:采用更大的byte-level的BPE词典

    实验结果

    在SQuAD、MNLI-m和SST-2上的实验结果:

    RoBERTa对比BERT有明显的提升,但是和XLNet差距不大。

    在GLUE上的结果:

    对于单任务单模型,RoBERTa九个任务均达到SOTA;

    在SQuAD上的结果:

    RoBERTa的成绩还可以。

    在RACE上的对比结果:

    从实验结果上看,RoBERTa均达到了SOTA.

    总结

    RoBERTa其实本质上只是一个调参达到最优的BERT,和XLNet不相上下。

    这篇paper带给我们的意义就是:RoBERTa再一次证明BERT才是众多预训练模型中的首选和扛鼎之作,也是那个真正引起质变的模型。

  • 相关阅读:
    [linux] ubuntu gnome 控制面板恢复
    [linux] grub修改
    [erlang] 合并list
    hdu4169 Wealthy Family (树形背包)
    hdu 3899 JLUCPC
    最大流模板
    hdu 4167 User Names
    hdu 2196 Computer (树形DP)
    hdu 1011 Starship Troopers(树形DP)
    hdu 2874 Connections between cities (LCA转RMQ)
  • 原文地址:https://www.cnblogs.com/YoungF/p/13437251.html
Copyright © 2011-2022 走看看