zoukankan      html  css  js  c++  java
  • transformer相关变体

    transformer综述:https://arxiv.org/pdf/2009.06732.pdf

    transformer:Attention Is All You Need

    基本构成:编码器+解码器
    基本组件:

    • 输入层:词嵌入+位置编码
    • 隐含层:多头注意力机制、残差连接、前馈神经网络、层归一化
    • 输出层:全连接+softmax
      解码器和编码器的结构是大致相同的,但也有所区别:
    • q,k,v的来源不一样:交叉注意力机制
    • masked多头注意力机制
      其它变体:

    下面是一些变体的简介:

    transformer-xl:Attentive Language Models Beyond a Fixed-Length Context

    主要解决长序列的问题。
    transformer存在的问题:

    • 1)因为segments之间独立训练,所以不同的token之间,最长的依赖关系,就取决于segment的长度;2)出于效率的考虑,在划分segments的时候,不考虑句子的自然边界,而是根据固定的长度来划分序列,导致分割出来的segments在语义上是不完整的。

    改进方法:

    • 在对当前segment进行处理的时候,缓存并利用上一个segment中所有layer的隐向量序列,而且上一个segment的所有隐向量序列只参与前向计算,不再进行反向传播,这就是所谓的segment-level Recurrence。
    • 采用相对位置编码,在计算当前位置隐向量的时候,考虑与之依赖token的相对位置关系。具体操作是,在算attention score的时候,只考虑query向量与key向量的相对位置关系,并且将这种相对位置关系,加入到每一层Trm的attention的计算中。

    Compressive Transformers for Long-Range Sequence Modelling

    基于transformer-XL 方法进行改进,通过压缩memory 使得模型可以处理更长的序列。

    Sparse Transformer: Concentrated Attention Through Explicit Selection

    vanilla Transformer对很多不相关的单词给予了很高的重视,而Sparse Transformer则集中在最相关的k个单词上。

    Image Transformer

    受卷积神经网络启发的Transformer变种,重点是局部注意范围,即将接受域限制为局部领域。

    Longformer: The Long-Document Transformer

    Sparse Transformer的变体,通过在注意力模式中留有空隙、增加感受野来实现更好的远程覆盖。

    Etc: Encoding long and structured data in transformers

    Sparse Transformer的变体,引入了一种新的全局本地注意力机制。

    Big Bird: Transformers for Longer Sequences

    与Longformer一样,同样使用全局内存,但不同的是,它有独特的“内部变压器构造(ITC)”,即全局内存已扩展为在sequence中包含token,而不是简单的参数化内存。

    Efficient content-based sparse attention with routing transformers

    提出了一种基于聚类的注意力机制,以数据驱动的方式学习稀疏注意力。

    Reformer: The efficient transformer

    一个基于局部敏感哈希(LSH)的注意力模型,引入了可逆的Transformer层,有助于进一步减少内存占用量

    Sparse sinkhorn attention

    这个模型属于分块模型,以分块的方式对输入键和值进行重新排序,并应用基于块的局部注意力机制来学习稀疏模式

    Hat: Hardware-aware transformers for efficient natural language processing

    这是基于低秩的自注意力机制的高效Transformer模型,主要在长度维度上进行低秩投影,在单次转换中按维度混合序列信息。

    Transformers are rnns: Fast autoregressive transformers with linear attention

    使用基于核的自注意力机制、和矩阵的关联特性,将自注意力的复杂性从二次降低为线性

    Masked language modeling for proteins via linearly scalable long-context transformers

    利用正交随机特征(ORF),采用近似的方法避免存储和计算注意力矩阵。

    Synthesizer: Rethinking self-attention in transformer models

    提出一种新的学习注意力权重的方式。该方法没有使用点积注意力或基于内容的注意力)。生成独立于token-token交互的对齐矩阵,并探索了一组用于生成注意力矩阵的参数化函数。

    https://zhuanlan.zhihu.com/p/84159401
    http://tech.sina.com.cn/csj/2020-09-21/doc-iivhuipp5559540.shtml

  • 相关阅读:
    grep 匹配打印的上下几行
    java List<String>的初始化
    HashMap优雅的初始化方式以及引申
    protocol buffer开发指南(官方)
    20种常用的DOS命令小结
    linux xfs文件系统无法用readdir获取dirent文件类型d_type则用stat获取暨stat函数讲解
    java中jar命令打包一个文件夹下的所有文件
    C/C++中的格式化字符
    自定义标签(JspFragment类、invoke方法、开发带属性的标签)
    java中Scanner类nextLine()和next()的区别和使用方法
  • 原文地址:https://www.cnblogs.com/xiximayou/p/14440498.html
Copyright © 2011-2022 走看看