zoukankan      html  css  js  c++  java
  • [NLP]四大模型与bert的对比:ernie1.0,xlnet,roberta,albert,bert

    1、ERNIE 1.0 , XLNET, RoBERTa, ALBERT 分别基于 BERT 做了哪些改进?

    答:
    1)ERNIE 1.0的改进:
    ①通过实体和短语mask能够学习语法和句法信息的语言模型
    ②在很多中文自然语言处理任务上达到SOTA
    训练数据集:中文维基百科、百度百科、百度贴吧、百度新闻
    可以理解为它主要是做一个中文的BERT,因此除了训练数据集以及使用实体Mask有很大的改变外,其他的变化不大

    2)XLNET的改进:
    ①使用transformer-xl代替了transformer,能获取更长距离的依赖信息
    ②它改动了预训练阶段,Bert在这一阶段使用了15%的MASK标志,而XLNET使用PLM重新排列组合
    输入序列X,这样不需要MASK标志,能不改变输入顺序、不更改原文就能同时看到上下文信息,它的方式是使用双流自注意力结构。

    3)RoBERTa的改进:
    是对BERT的优化版本,保持结构不变,整体改动不大,但是具体的改动如下:
    ①在模型的规模、算力和数据上:更长的训练时间、更大的batch size、更多的训练数据
    ②训练方法上:去掉NSP任务 ,使用动态MASK,对文本编码(从BPE变为byte characters)

    4)ALBERT的改进:
    ①两种减少参数方法:矩阵分解、参数共享
    矩阵分解:在两个大维度之间加入一个小维度,从O(V*H)变为O(V*E+E*H),其中H 远远大于 E,以达到
    降维的作用
    参数共享:交叉层参数共享
    ②SOP代替NSP
    ③n-gram MASK

    2、ALBERT为什么用 SOP 任务替代BERT 中的 NSP 任务?
    答:
    ①SOP补偿了一部分因为embedding和FFN共享而损失的性能
    ②NSP将主题预测(topic prediction)和连贯性预测(coherence prediction)融合起来学习比较困难,
    而SOP将负样本换成了同一篇文章中的两个逆序的句子,进而消除主题预测

  • 相关阅读:
    阿里云配置学习
    华为机试练习代码
    微信公众号开发
    给div加滚动条
    Nolia 给CC添加过滤器
    算法理解
    Jquery常用功能
    day 2Linux软件从主机安装到服务器和安装JDK软件
    10月11 一些小的东西
    9月30 json工具类
  • 原文地址:https://www.cnblogs.com/mj-selina/p/13966175.html
Copyright © 2011-2022 走看看