【NLP】选择目标序列：贪心搜索和Beam search

zoukankan html css js c++ java

【NLP】选择目标序列：贪心搜索和Beam search

构建seq2seq模型，并训练完成后，我们只要将源句子输入进训练好的模型，执行一次前向传播就能得到目标句子，但是值得注意的是：

seq2seq模型的decoder部分实际上相当于一个语言模型，相比于RNN语言模型，decoder的初始输入并非0向量，而是encoder对源句子提取的信息。因此整个seq2seq模型相当于一个条件语言模型，本质上学习的是一个条件概率，即给定输入(x)，学习概率分布(P(y|x))。得到这个概率后，对应概率最大的目标句子(y)就是模型认为的最好的输出。我们不希望目标的输出是随机的（这相当于对学习的概率分布(P(y|x))随机取样），但要选择最好的句子(y)需要在decoder的每一步遍历所有可能的单词，假如目标句子的长度为(n)，词典大小为(v)，那么显然，可能的句子数量是(v^n)，这显然是做不到的。

1 Greedy search

一个自然的想法是贪心搜索(greedy search)，即decoder的每一步都选择最可能的单词，最后得到句子的每一个单词都是每一步认为最合适的单词。但这样并不保证整个句子的概率是最大的，即不能保证整个句子最合适。实际上，贪心搜索的每一步搜索都处理成仅仅与前面刚生成的一个单词相关，类似于马尔科夫假设。这显然是不合理的，具体来说，贪心搜索到的句子(y)概率是使得下式概率最大：

(P(y|x) = prod_{k=1}^{n}{p(y_k|x,y_{k-1})})

而实际上，根据全概率公式计算得到(P(y|x))为：

(P(y|x) = prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1}))

2 Beam search

译为束搜索。思想是，每步选取最可能的(k)个结果，再从最后的(k)个结果中选取最合适的句子。(k)称为beam size。

具体做法是：

首先decoder第一步搜索出最可能的(k)个单词，即找到(y_{11},y_{12},...,y_{1k})，他们的概率(p(y_{11}|x),...,p(y_{1k}|x))为最大的(k)个。

进行第二步搜索，分别进行(k)个模型副本的搜索。每个副本(i)，根据上一步选取的单词(y_{1i})，选取概率最大的(k)个结果(y_{21},y_{22},...,y_{2k})。这样，就有了(k*k)个可能的结果，从这些结果中选择(k)个概率最大的结果，即(p(y_{1i}|x)*p(y_{2j}|x,y_{1i}))最大的(k)个结果。

进行第三步搜索，从第二步中确定的(k)个结果出发，再进行(k)个模型副本的搜索，直到最后一步，从最后的(k)个结果中选取概率最大者。

显然，若(k=1)则为贪心搜索，(k)越大则占用内存越大，计算代价越大，实际应用中取10即可。

另外，可以发现概率的连乘使得概率越来越小，很可能溢出，为了保证模型的稳定性，常对概率连乘计算+log变为加法。

(P(y|x) = log(prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1})))

3 改进Beam search

从Beam search的搜索过程中可以发现，Beam search偏向于找到更短的句子，也就是说，如果搜索过程中有一支搜索提前发现了(<EOS>),而另外(k-1)支继续搜索找到其余更长的结果，那么由于概率连乘(或log连加)，越长的结果概率肯定越小。因此有必要进行模型修正，即进行长度归一化，具体来说，即：

选择概率(P(y|x) = frac{1}{n}log(prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1})))最大的句子，式中，(n)为该结果序列长度。

另外，实践中还做了如下修正：

(P(y|x) = frac{1}{n^alpha}log(prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1})))

式中，超参数(alpha)取0.7比较合适。

4 误差分析

对于训练的seq2seq模型，对它输出的句子(y)，以及实际的句子(y^*)，若概率(y)大于(y^*)，（统计所有句子，平均来说是这个结果），则说明，seq2seq模型出错了。否则，说明，baem search并没有找到最合适的结果，可以考虑增大beam size大小。

查看全文

相关阅读:
Android窗口管理服务WindowManagerService计算Activity窗口大小的过程分析
 软件的三层架构
 【Android小应用】颈椎保健操Android开源项目
 huffman编码——原理与实现
 30天自制操作系统之第13天定时器（2）
JSP中Session的使用
 [非官方]ArcGIS10.2 for Desktop扩展工具包——XTools Pro
在C语言中，double、long、unsigned、int、char类型数据所占字节数
 nyoj 130 同样的雪花【哈希】
socketpair的使用

原文地址：https://www.cnblogs.com/duye/p/10680076.html

【NLP】选择目标序列：贪心搜索和Beam search

1 Greedy search

2 Beam search

3 改进Beam search

4 误差分析