Attention is all you need论文Transformer中的Positional Encoding代码实现及讲解

zoukankan html css js c++ java

Attention is all you need论文Transformer中的Positional Encoding代码实现及讲解

首先论文中说到因为没有用到RNN也没有用到CNN提取特征，所以句子中没有很好的应用位置信息。所以需要在input embedding后加上Positional Encoding 。所以论文中提出了一种Positional Encoding的实现方式，下面贴出代码的实现以及讲解。

首先看下论文中提出的方式，pos为词的位置信息，dmodel为词向量embedding的维度。

最后得到的向量大小取值范围也在-1到1之间。

代码如下。

# n_position 为句子划分成字符或者词的长度，d_hid为词向量的维度。
def get_sinusoid_encoding_table(n_position, d_hid, padding_idx=None):
''' Sinusoid position encoding table '''

def cal_angle(position, hid_idx):
return position / np.power(10000, 2 * (hid_idx // 2) / d_hid)

def get_posi_angle_vec(position):
return [cal_angle(position, hid_j) for hid_j in range(d_hid)]

sinusoid_table = np.array([get_posi_angle_vec(pos_i) for pos_i in range(n_position)])

sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2]) # dim 2i 偶数正弦
sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2]) # dim 2i+1 奇数余弦

if padding_idx is not None:
# zero vector for padding dimension
sinusoid_table[padding_idx] = 0.

return torch.FloatTensor(sinusoid_table) # n_position × d_hid 得到每一个词的位置向量

原文链接：https://blog.csdn.net/qq_33278884/article/details/88868808

查看全文

相关阅读:
回调函数
 箭头函数和普通函数的区别？
实现 (5).add(3).minus(2)，使其输出结果为：6
call 和 apply 的区别？哪个性能更好？
用 JS 的 RegExp 进行正则判断，字符串内是否有特殊符号
 如何理解和描述“原型和原型链”
JS 的防抖和节流
 Linux 服务器关闭防火墙命令
 前端在Linux服务器搭建安装Nginx的步骤记录
 记录一些CSS的实用技巧

原文地址：https://www.cnblogs.com/wisir/p/12461641.html