Transformer
transformer里面重要的思想
attention
就是注意力机制self-attention,还有多头注意力机制 这个可以看之前的推导
position embedding
使用位置编码表示序列的顺序
到目前为止,我们对模型的描述缺少了一种理解输入单词顺序的方法。
为了解决这个问题,Transformer为每个输入的词嵌入添加了一个向量。这些向量遵循模型学习到的特定模式,这有助于确定每个单词的位置,或序列中不同单词之间的距离。这里的直觉是,将位置向量添加到词嵌入中使得它们在接下来的运算中,能够更好地表达的词与词之间的距离。龙心尘