Chain Rule
前面讲过的Noisy Channel Model中提到了,P(text)是指的语言模型。那么,语言模型究竟有什么意义,又该怎么求呢?
语言模型其实就是考察text出现的概率。例如,在拼写纠错中,text使我们猜测的正确的单词,那么,这个单词是否常见呢?如果这个单词很常见,就说明他出现的概率很大,那么我们就越有理由相信,该单词就是我们要纠正到的正确单词。同样,在机器翻译中,我们将source翻译成text,如果text出现的概率越大,就说明text越符合目标语言的语法习惯,那么翻译就越准确。
综上所述,语言模型其实就是判断text出现的概率,从而在具体应用中发挥判定作用。
那么,该如何计算P(text)呢?假设我们有一句话“我喜欢喝奶茶”,经过分词之后,变成“我 喜欢 喝 奶茶”,那么,现在我们需要计算P(我喜欢喝奶茶),计算方法其实就是运用了链式法则。
链式法则如下所示,设A,B都是随机变量,那么有
$$ P(A,B)= P(A)P(B|A) $$
当随机变量有n个时,链式法则如下所示:
$$P(omega _{1},omega _{2},...,omega _{n}) = P(omega _{1})P(omega _{2} |omega _{1})P(omega _{3}|omega _{1},omega _{2})...P(omega _{n}|omega _{1},...,omega _{n-1})$$
所以,对于text为“我喜欢喝奶茶”这句话,可以用链式法则得到:
$$P(我喜欢喝奶茶) = P(我)P(喜欢|我)P(喝|我,喜欢)P(奶茶|我,喜欢,喝)$$
所以,对于一句话求其概率,就是先将他分词,然后利用链式法则求概率就好了
Markov Assumption
但是,不管是什么算法,最终都要实用哈。例如对于P(奶茶|我,喜欢,喝)这个概率,我们怎么求它呢?首先,我们肯定是有一个超大的语料库,里面有各种各样乱七八糟的句子。然后我们在里面寻找有“我喜欢喝”这个前缀的句子,假设我们找到了以下五句:
我喜欢喝奶茶
我喜欢喝可乐
我喜欢喝咖啡
我喜欢喝茶
我喜欢喝奶茶
那么,在五个句子当中,有两个句子是在“我喜欢喝”后面接的“奶茶”,所以P(奶茶|我,喜欢,喝)= 2/5.
可是,如果这个前缀超大呢?例如,如果一个前缀是“我喜欢喝无糖少冰加椰果珍珠红豆的”,然后要我求后面接“奶茶”的概率
可问题是,语料库中可能就压根不存在带有这个前缀的句子,或者有也是一两句,那么是很难准确求出它的概率的啊。而且,其实前缀涉及到的单词越多,训练模型需要的容量就越大,假设我们的词典中有三个单词a,b,c,如果只要求一个前缀的概率,也就是P(y|x)形式的概率,那么我们只需要一个3*3的矩阵就可以了。矩阵的行是“a,b,c”,矩阵的列是"a,b,c",矩阵的第a行第b列就是P(b|a)。但是如果允许前缀有两个单词,那么矩阵的行就有六个了“a,b,c,(a,b),(a,c),(b,c)”。这还只是假设词典库中只有三个单词,如果词典库中有成千上万的单词,那么需要的矩阵是非常大的。所以,我们应该尽量避免求前缀太大的概率。这就用到了马尔科夫假设了
马尔科夫假设的大概意思很简单,就是假定接下来出现的单词只和前面几个有关(可以是前面一个,也可是两个,。。。)。
例如,对于1st order Markov Asumption,我们就认为,接下来出现的单词只和前一个有关。
例如,虽然“奶茶”和“我,喜欢,喝”都可能有关,但是我们就认为“奶茶”只和“喝”有关,那么,就能够得到如下的公式:
$$P(我喜欢喝奶茶) = P(我)P(喜欢|我)P(喝|喜欢)P(奶茶|喝)$$
这样求右边的每个概率就很简单了。
写成一般表达式如下:这里ωi指代的是词典库的单词
$$P(omega _{1},omega _{2},...,omega _{n}) = P(omega _{1})P(omega _{2} |omega _{1})P(omega _{3}|omega _{2})...P(omega _{n}|omega _{n-1})$$
既然有1st order Markov Asumption,就会有2nd order Markov Asumption,后者假定,对于下一个出现的单词,只和前两个单词有关,写成公式如下:
$$P(omega _{1},omega _{2},...,omega _{n}) = P(omega _{1})P(omega _{2} |omega _{1})P(omega _{3}|omega _{1},omega _{2})...P(omega _{n}|omega _{n-2},omega _{n-1})$$
马尔科夫假设虽然丢掉了比较靠前的上文信息,但是使得模型能够实用,效果也是非常好的