[转] Beam Search

zoukankan html css js c++ java

[转] Beam Search

from :https://zhuanlan.zhihu.com/p/28048246

seq2seq中的beam search算法过程

忆臻

哈尔滨工业大学计算机科学与技术博士在读

在sequence2sequence模型中，beam search的方法只用在测试的情况，因为在训练过程中，每一个decoder的输出是有正确答案的，也就不需要beam search去加大输出的准确率。

假设现在我们用机器翻译作为例子来说明，

我们需要翻译中文“我是中国人”--->英文“I am Chinese”

假设我们的词表大小只有三个单词就是I am Chinese。那么如果我们的beam size为2的话，我们现在来解释,

如下图所示，我们在decoder的过程中，有了beam search方法后，在第一次的输出，我们选取概率最大的"I"和"am"两个单词，而不是只挑选一个概率最大的单词。

然后接下来我们要做的就是，把“I”单词作为下一个decoder的输入算一遍得到y2的输出概率分布，把“am”单词作为下一个decoder的输入算一遍也得到y2的输出概率分布。

比如将“I”单词作为下一个decoder的输入算一遍得到y2的输出概率分布如下：

比如将“am”单词作为下一个decoder的输入算一遍得到y2的输出概率分布如下：

那么此时我们由于我们的beam size为2，也就是我们只能保留概率最大的两个序列，此时我们可以计算所有的序列概率：

“I I” = 0.4*0.3 "I am" = 0.4*0.6 "I Chinese" = 0.4*0.1

"am I" = 0.5*0.3 "am am" = 0.5*0.3 "am Chinese" = 0.5*0.4

我们很容易得出俩个最大概率的序列为 “I am”和“am Chinese”，然后后面会不断重复这个过程，直到遇到结束符为止。

最终输出2个得分最高的序列。

这就是seq2seq中的beam search算法过程，但是可能有些同学有一个疑问，就是但i-1时刻选择的单词不同的时候，下一时刻的输出概率分布为什么会改变？

这是由于解码的过程中，第i时刻的模型的输入，包括了第i-1时刻模型的输出，那么很自然在第i-1时刻模型的输出不同的时候，就会导致下一时刻模型的输出概率分布会不同，因为第

i-1时刻的输出作为参数影响了后一时刻模型的学习。

如下图用了一个slides的法语翻译为英文的例子，可以更容易理解上面的解释。

致谢：

凌志、刘洋、皓宇、萧瑟师兄

参考：谁能解释下seq2seq中的beam search算法过程?

查看全文

相关阅读:
关于敏捷软件开发的一些感悟
 求出矩阵中，所有元素相加和最大的分块矩阵。
小组作业提交报告
 结对项目实训——电梯调度
 关于代码测试方面的一些想法和感悟
 用c语言实现文本文件中的字符筛选分析（二）
用c语言实现文本文件中的字符筛选分析（一）
4月19日会议（整理——郑云飞）
4月18日会议总结（整理—祁子梁）
每日任务看板展示—第一周

原文地址：https://www.cnblogs.com/Arborday/p/12667381.html

seq2seq中的beam search算法过程