zoukankan      html  css  js  c++  java
  • Bert及变种简述

    BERT:

    老大哥模型,模型的两个目标MLM和NSP,采用静态Masking(模型预训练之前已经确定了Masking的位置)

    ALBERT:

    bert模型的精简版本,参数更少,训练更快,主要有以下改动:

    1. 矩阵分解。词向量V到encoder全连接M进行分解,bert中参数量:V*M,ALBERT:V*H+M*H=(V+M)*H,H可以比较小,因为词的数目有限的,和下游的语义相比可以有更小的维度
    2. 贡献权重。encoder权重贡献(当然也可以只共享Multi-head attention或者feed forwa neural network)
    3. SOP代替NSP。NSP是第二个句子通过采样获得,预测其是不是后面一个句子;SOP,将前后两个句子颠倒,预测句子的顺序

    span BERT:

    参考https://zhuanlan.zhihu.com/p/75893972

    fast BERT:

    参考链接:https://mp.weixin.qq.com/s/TtpD3EEXWQUkvfB1AVl7ig

    其他的以后再写吧。。。。 

  • 相关阅读:
    带勾选框的组织F4
    VBA 学习
    MACD指标量化策略实战案例
    DOM
    JS基础下
    JS基础
    CSS基础
    html实战4--transform3D
    html实战3--精灵图
    html实战2--四叶草
  • 原文地址:https://www.cnblogs.com/oldBook/p/12696559.html
Copyright © 2011-2022 走看看