transformer相关变体

zoukankan html css js c++ java

transformer相关变体
transformer综述：https://arxiv.org/pdf/2009.06732.pdf

transformer:Attention Is All You Need

基本构成：编码器+解码器
基本组件：
- 输入层：词嵌入+位置编码
- 隐含层：多头注意力机制、残差连接、前馈神经网络、层归一化
- 输出层：全连接+softmax
  解码器和编码器的结构是大致相同的，但也有所区别：
- q,k,v的来源不一样：交叉注意力机制
- masked多头注意力机制
  其它变体：
下面是一些变体的简介：

transformer-xl：Attentive Language Models Beyond a Fixed-Length Context

主要解决长序列的问题。
transformer存在的问题：
- 1）因为segments之间独立训练，所以不同的token之间，最长的依赖关系，就取决于segment的长度；2）出于效率的考虑，在划分segments的时候，不考虑句子的自然边界，而是根据固定的长度来划分序列，导致分割出来的segments在语义上是不完整的。
改进方法：
- 在对当前segment进行处理的时候，缓存并利用上一个segment中所有layer的隐向量序列，而且上一个segment的所有隐向量序列只参与前向计算，不再进行反向传播，这就是所谓的segment-level Recurrence。
- 采用相对位置编码，在计算当前位置隐向量的时候，考虑与之依赖token的相对位置关系。具体操作是，在算attention score的时候，只考虑query向量与key向量的相对位置关系，并且将这种相对位置关系，加入到每一层Trm的attention的计算中。
Compressive Transformers for Long-Range Sequence Modelling

基于transformer-XL 方法进行改进，通过压缩memory 使得模型可以处理更长的序列。

Sparse Transformer: Concentrated Attention Through Explicit Selection

vanilla Transformer对很多不相关的单词给予了很高的重视，而Sparse Transformer则集中在最相关的k个单词上。

Image Transformer

受卷积神经网络启发的Transformer变种，重点是局部注意范围，即将接受域限制为局部领域。

Longformer: The Long-Document Transformer

Sparse Transformer的变体，通过在注意力模式中留有空隙、增加感受野来实现更好的远程覆盖。

Etc: Encoding long and structured data in transformers

Sparse Transformer的变体，引入了一种新的全局本地注意力机制。

Big Bird: Transformers for Longer Sequences

与Longformer一样，同样使用全局内存，但不同的是，它有独特的“内部变压器构造（ITC）”，即全局内存已扩展为在sequence中包含token，而不是简单的参数化内存。

Efficient content-based sparse attention with routing transformers

提出了一种基于聚类的注意力机制，以数据驱动的方式学习稀疏注意力。

Reformer: The efficient transformer

一个基于局部敏感哈希（LSH）的注意力模型，引入了可逆的Transformer层，有助于进一步减少内存占用量

Sparse sinkhorn attention

这个模型属于分块模型，以分块的方式对输入键和值进行重新排序，并应用基于块的局部注意力机制来学习稀疏模式

Hat: Hardware-aware transformers for efficient natural language processing

这是基于低秩的自注意力机制的高效Transformer模型，主要在长度维度上进行低秩投影，在单次转换中按维度混合序列信息。

Transformers are rnns: Fast autoregressive transformers with linear attention

使用基于核的自注意力机制、和矩阵的关联特性，将自注意力的复杂性从二次降低为线性

Masked language modeling for proteins via linearly scalable long-context transformers

利用正交随机特征（ORF），采用近似的方法避免存储和计算注意力矩阵。

Synthesizer: Rethinking self-attention in transformer models

提出一种新的学习注意力权重的方式。该方法没有使用点积注意力或基于内容的注意力)。生成独立于token-token交互的对齐矩阵，并探索了一组用于生成注意力矩阵的参数化函数。

https://zhuanlan.zhihu.com/p/84159401
http://tech.sina.com.cn/csj/2020-09-21/doc-iivhuipp5559540.shtml
查看全文

相关阅读:
小程序发展史
 ES6内置方法find 和 filter的区别在哪
 微信小程序开发踩坑记录
 小程序导航跳转一不小心踩进的坑
 谈谈如何对后台登陆界面进行渗透
 应急响应学习笔记
 php学习笔记
 代码审计学习笔记
 注入笔记（非sql注入）
python安全编程学习

原文地址：https://www.cnblogs.com/xiximayou/p/14440498.html

transformer相关变体

transformer综述：https://arxiv.org/pdf/2009.06732.pdf

transformer:Attention Is All You Need

transformer-xl：Attentive Language Models Beyond a Fixed-Length Context

Compressive Transformers for Long-Range Sequence Modelling

Sparse Transformer: Concentrated Attention Through Explicit Selection

Image Transformer

Longformer: The Long-Document Transformer

Etc: Encoding long and structured data in transformers

Big Bird: Transformers for Longer Sequences

Efficient content-based sparse attention with routing transformers

Reformer: The efficient transformer

Sparse sinkhorn attention

Hat: Hardware-aware transformers for efficient natural language processing

Transformers are rnns: Fast autoregressive transformers with linear attention

Masked language modeling for proteins via linearly scalable long-context transformers

Synthesizer: Rethinking self-attention in transformer models