论文阅读笔记01-attention-is-all-you-need

zoukankan html css js c++ java

论文阅读笔记01-attention-is-all-you-need

1结构介绍

是一个seq2seq的任务模型，将输入的时间序列转化为输出的时间序列。
有encoder和decoder两个模块，分别用于编码和解码，结合时是将编码的最后一个输出当做解码的第一个模块的输入
encoder模块有两个操作： self-attention、feed-forward
decoder模块有三个操作：self-attention、encoder-decoder-attention、feed-forward
两种attention用的都是 multi-head-attention

2 enbedding

enbedding 操作不是简单地enbedding，而是加入了位置信息的enbedding,称之为position-enbedding,

3.multi-head-attention

3.1 attention 简单回顾

attention 理解为计算相关程度；
进行如下表述：表示为将query 和k-v pairs 映射到输出上其中query,每个k，每个v都是向量，输出是V中所有v的加权，其中权重是由q和每个k计算出来的，计算方法分为三步：
（1）计算比较q和k的相似度，用f来表示：

（2）将得到的相似度进行softmax归一化

（3）针对计算出来的权重，对所有的v进行加权求和，得到attention向量

理解为：
q与一个k进行f运算，运算结果为标量，得到一个原始权重，原始权重经过softmax后变为正式权重，
对所有的v进行加权求和，得到attention向量。

计算相似度的方法有四种：

在paper中使用的是第一种方式。

接下来介绍multi-head-attention的简单版本scaled-dot-product-attention

如果有一天我们淹没在茫茫人海中庸碌一生，那一定是我们没有努力活得丰盛

查看全文

相关阅读:
爬虫必备—性能相关（异步非阻塞）
JPA自定义查询@Query分页
 iiview Select 选择框打勾选中的内容label和展示的不一致
 ivew Table 固定列设置后，底部拖拽的横轴被覆盖拉不动
 vue消息提示Message
LeafLet之气泡框隐藏"x"图标
 vue 之折线图挤压
 iView之清空选择框
 iview之select选择框选中内容后有空格的问题
 iview组件select之默认展示label，并传空value做方法入参

原文地址：https://www.cnblogs.com/yeran/p/10604009.html

论文阅读笔记01-attention-is-all-you-need

1结构介绍

2 enbedding

3.multi-head-attention

3.1 attention 简单回顾