zoukankan      html  css  js  c++  java
  • [NLP]四大模型与bert的对比:ernie1.0,xlnet,roberta,albert,bert

    1、ERNIE 1.0 , XLNET, RoBERTa, ALBERT 分别基于 BERT 做了哪些改进?

    答:
    1)ERNIE 1.0的改进:
    ①通过实体和短语mask能够学习语法和句法信息的语言模型
    ②在很多中文自然语言处理任务上达到SOTA
    训练数据集:中文维基百科、百度百科、百度贴吧、百度新闻
    可以理解为它主要是做一个中文的BERT,因此除了训练数据集以及使用实体Mask有很大的改变外,其他的变化不大

    2)XLNET的改进:
    ①使用transformer-xl代替了transformer,能获取更长距离的依赖信息
    ②它改动了预训练阶段,Bert在这一阶段使用了15%的MASK标志,而XLNET使用PLM重新排列组合
    输入序列X,这样不需要MASK标志,能不改变输入顺序、不更改原文就能同时看到上下文信息,它的方式是使用双流自注意力结构。

    3)RoBERTa的改进:
    是对BERT的优化版本,保持结构不变,整体改动不大,但是具体的改动如下:
    ①在模型的规模、算力和数据上:更长的训练时间、更大的batch size、更多的训练数据
    ②训练方法上:去掉NSP任务 ,使用动态MASK,对文本编码(从BPE变为byte characters)

    4)ALBERT的改进:
    ①两种减少参数方法:矩阵分解、参数共享
    矩阵分解:在两个大维度之间加入一个小维度,从O(V*H)变为O(V*E+E*H),其中H 远远大于 E,以达到
    降维的作用
    参数共享:交叉层参数共享
    ②SOP代替NSP
    ③n-gram MASK

    2、ALBERT为什么用 SOP 任务替代BERT 中的 NSP 任务?
    答:
    ①SOP补偿了一部分因为embedding和FFN共享而损失的性能
    ②NSP将主题预测(topic prediction)和连贯性预测(coherence prediction)融合起来学习比较困难,
    而SOP将负样本换成了同一篇文章中的两个逆序的句子,进而消除主题预测

  • 相关阅读:
    proxool配置及测试(数据库用的MySQL)
    Spring MVC
    修改类不重启tomcat 自动加载项目
    【ssm】拦截器的原理及实现
    springmvc实现json交互 -requestBody和responseBody
    Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC 配置校验器
    spring-dao.xml配置问题(一)
    tomcat自动缓存的几种解决方式
    editor does not contain a main type的解决方案
    实现PageProcessor
  • 原文地址:https://www.cnblogs.com/mj-selina/p/13966175.html
Copyright © 2011-2022 走看看