zoukankan      html  css  js  c++  java
  • 论文阅读笔记01-attention-is-all-you-need

    1结构介绍

    是一个seq2seq的任务模型,将输入的时间序列转化为输出的时间序列。
    有encoder和decoder两个模块,分别用于编码和解码,结合时是将编码的最后一个输出 当做 解码的第一个模块的输入
    encoder模块有两个操作: self-attention、feed-forward
    decoder模块有三个操作:self-attention、encoder-decoder-attention、feed-forward
    两种attention用的都是 multi-head-attention

    2 enbedding

    enbedding 操作不是简单地enbedding,而是加入了位置信息的enbedding,称之为position-enbedding,

    3.multi-head-attention

    3.1 attention 简单回顾

    attention 理解为计算相关程度;
    进行如下表述:表示为将query 和k-v pairs 映射到输出上其中query,每个k,每个v都是向量,输出是V中所有v的加权,其中权重是由q和每个k计算出来的,计算方法分为三步:
    (1)计算比较q和k的相似度,用f来表示:

    (2)将得到的相似度进行softmax归一化

    (3)针对计算出来的权重,对所有的v进行加权求和,得到attention向量

    理解为:
    q与一个k进行f运算,运算结果为标量,得到一个原始权重,原始权重经过softmax后变为正式权重,
    对所有的v进行加权求和,得到attention向量。

    计算相似度的方法有四种:

    在paper中使用的是第一种方式。

    接下来介绍multi-head-attention的简单版本scaled-dot-product-attention

    如果有一天我们淹没在茫茫人海中庸碌一生,那一定是我们没有努力活得丰盛
  • 相关阅读:
    Educational Codeforces Round 80 (Rated for Div. 2)
    寒假集训
    HDU-4609 3-idiots
    部分分式展开法
    线性同余方程组
    爬取哔哩哔哩python搜索结果
    数据可视化练习题
    python正则表达式
    git的安装和基础知识
    python学习计划
  • 原文地址:https://www.cnblogs.com/yeran/p/10604009.html
Copyright © 2011-2022 走看看