zoukankan      html  css  js  c++  java
  • Notes | Bert系列的预训练模型

    参考:

    李宏毅《深度学习人类语言处理》

    ELMo  Embeddings from Language Models

    BERT  Bidirectional Encoder Representations from Transformers

    ERNIE  Enhanced Representation through Knowledge Integration

    Grover  Generating aRticles by Only Viewing mEtadata Records

    Big Bird  Big Bird: Transformers for Longer Sequences

    共同点:

    contxtualized word embedding (base model):

    1. LSTM
    2. Self-attention layers
    3. Tree-based models (注重文法,但一般表现不佳,只有在文法结构非常清晰严谨的情况下表现好)

    模型变小

    • Distill BERT
    • Tiny BERT
    • Mobile BERT
    • Q8BERT
    • ALBERT

    小模型方法:

    Network Compression

    • Network Pruning  剪枝
    • Knowledge Distillation  知识蒸馏
    • Parameter Quantization  参数量化
    • Architecture Design  结构设计

    网络结构改进

    Transformer-XL (XLNet使用):跨块级结构的attention,不仅局限于max-len(512)的长度

    Reformer、Longformer、Big Bird:减少self-attention的复杂度

    训练方法

    Predict Next Token (self-supervised):

    language models:

    LSTM:

    • ELMo (双向LSTM)

     

      不是真正的双向,预测一个token时,不是真正地看到两边的内容,而是两个单向LSTM能力的拼接。

    • Universal Language Model Fine-tuning (ULMFiT)

    Self-attention:

    这里可以attention的位置要有约束(目标是预测下一个token,不能看到未来的token答案)

    绿色部分是可以attention的部分。

    • GPT系列
    • Megatron
    • BERT (mask机制,用transformer作为encoder,预测某一个masked token时,可以看到上下文信息,类似CBOW的思想)

    Span Boundary Objective (SBO)

    SpanBERT提出,用mask的一个完整span的左右边界来预测span内指定的某一个masked token。

    预测token是否被mask

    ELECTRA: Efficiently Learning an Encoder thtat Classifies Token Replacements Accurately

     

    预测是否被是被小BERT置换过的词:

    其中,小BERT模型随机选一个token进行mask,small BERT为这个masked token还原成它认为对的词。

     

    NSP 预测是否是下一个句子

    BERT:Next sentence prediction

    RoBERTa 指出该预测方法没有用。

    SOP Sentence order prediction

    ALBERT中使用。

    structBERT (Alice) 有用到类似的 (将 NSP 与 SOP 结合)

    Mask机制改进

    whole word masking(WWM) 整个词的mask

    ERNIE: Phrase-level & Entity-level   短语&命名实体级别

    SpanBert: 盖住n个token

    seq2seq model

    破坏输入进行预测:

    MASS: MAsked Sequence to Sequence pre-training(下图红框)

    BART: Bidirectional and Auto-Regressive Transformers(下图蓝框)

    BART给出了更多破坏输入进行预测的方式。

    结论:Permutation 和 Rotation的效果不好;Text Infilling的效果好。

    UniLM:模型可以是encoder decoder seq2seq的任意模型

    同时进行多种训练:

    • Bidirectional LM
    • Left-to-Right LM
    • Seq-to-Seq LM

    预训练方法对比:

    Transfer Text-to-Text Transformer (T5)  ,其中的训练集为C4。

    加入知识:

    清华的ERNIE。

  • 相关阅读:
    07 总结ProgressDialog 异步任务
    1. vim 的安装及配置
    debian 源设置 ( apt-get 不能安装)
    在Debian中安装VNC Server
    让BB-Black通过usb0上网
    常用的一些 linux 指令
    Linux下同一目录内文件和目录为什么不能同名?
    beaglebone black 与电脑互传文件(夹)
    永久修改 putty字体大小
    Beaglebone Black的引脚分配
  • 原文地址:https://www.cnblogs.com/shona/p/13786691.html
Copyright © 2011-2022 走看看