Attention基本公式及其变种

zoukankan html css js c++ java

Attention基本公式及其变种
本篇博文介绍的Attention，全部是Seq2Sqeq的attention机制的变种，本质上也还是Seq2Seq的attention，区别于Transformer的self attention，下一篇博文会介绍self attention。

Attention Mechanism 机制基本公式

attention机制本质上是一种加权值，对文本进行加权求和后得到整个文本的中间语义变换函数，关于其原理的介绍文章已经有很多了，这里不在赘述。其基本公式如下：
- address memory (score function)
  $e_{ij}=f(q_i, p_j)$
- normalize (aligment function)
  $alpha_{ij}=softmax(e_{ij})=frac{exp(f(q_i,p_j))}{sum_jexp(f(q_i,p_j))}$
- read content (generate context vector function)
  $c_i = sum_{i}alpha_{ij}h_i$
Score fucntion本质上是在求一种匹配度(相似度)，Aligment function是把所有位置上的权值归一化，使其相加等于1(softmax正是这种功能)，最后的加权求和是为了使得经过LSTM/RNN encode之后的文本与权值关联起来得到加权的中间语义表示。Attention被提出了是为了解决较长文本中依赖关系的捕捉，传统的序列模型虽然有一定这方面的能力，但文本一旦边长效果随之变差。

Score function $f$ 通常是两段文本q(表示query)，p(表示passage)的点积，因为两个矩阵相乘是最简单直观的相似度度量。这就是最基本的attention机制的实现公式了。
$f = Q^TP$

基本attention公式变种

通过改变 $f$ 函数的计算方式，可以产生很多attention机制的变种，这些变种可能在某些特定的任务下比基本attention机制公式效果更好。

下面就列出一篇论文下给出的四种attention机制变种。 $s$ 即为前述 $f$ 。

Concat Attention

$s_j^t=v_c^Ttanh(W_c^1h_j^q+W_c^2h_t^p)$
$a_i^t=exp(s_i^t)/sum_{j=1}^Nexp(s_j^t)$
$q_t^c=sum_{i=1}^Na_i^th_i^q$

Bilinear Attention

$s_j^t=h_j^{q^T}W_bh_t^p$
$a_i^t=exp(s_i^t)/ sum_{j=1}^Nexp(s_j^t)$
$q_t^b=sum_{i=1}^Na_i^th_i^q$

Dot Attention

$s_j^t=v_d^Ttanh(W_d(h_j^qodot h_t^p))$
$a_i^t=exp(s_i^t)/sum_{j=1}^Nexp(s_j^t)$
$q_t^d=sum_{i=1}^Na_i^th_i^q$

Minus Attention

$s_j^t=v_m^Ttanh(W_m(h_j^q-h_t^p))$
$a_i^t=exp(s_i^t)/sum_{j=1}^Nexp(s_j^t)$
$q_t^m=sum_{i=1}^Na_i^th_i^q$

Add Attention

再补充一个，出处不一样，跟上面四个相比应该叫做Add attention原出处称为perceptron attetion。它跟Concat好像是一样的。

$s_j^t=v_a^Ttanh(W_ah_j+U_ah_t))$
$a_i^t=exp(s_i^t)/sum_{j=1}^Nexp(s_j^t)$
$q_t^c=sum_{i=1}^Na_i^th_i^q$

参考资料

大话注意力机制
 attetnion各种形式总结
 Multiway Attention Networks for Modeling Sentence Pairs (IJCAI 2018)
查看全文

相关阅读:
Linux学习笔记8——VIM编辑器的使用
 Linux学习笔记7——linux中的静态库和动态库
 Linux学习笔记6——映射虚拟内存
 Linux学习笔记5——虚拟内存
 Linux学习笔记4——函数调用栈空间的分配与释放
 C++中new和malloc
Linux学习笔记3——Linux中常用系统管理命令
 Linux学习笔记2——Linux中常用文件目录操作命令
 python的基本语法
 11.3 自定义注解

原文地址：https://www.cnblogs.com/wanghongze95/p/13842434.html

Attention基本公式及其变种

Attention Mechanism 机制基本公式

基本attention公式变种

Concat Attention

Bilinear Attention

Dot Attention

Minus Attention

Add Attention

参考资料