https://arxiv.org/pdf/1706.03762.pdf 网上博客很多,但讲Attention有两个版本
《动手学深度学习》里把这两个串到一起了,很不错。 Q代表解码器的每一层,K、V代表编码器每一层的隐藏变量。Q、K、V形式是把Anntetion进行矢量化,方便计算。