zoukankan      html  css  js  c++  java
  • N-gram语言模型与马尔科夫假设关系(转)

    1、从独立性假设到联合概率链
    朴素贝叶斯中使用的独立性假设为
    P(x1,x2,x3,...,xn)=P(x1)P(x2)P(x3)...P(xn)

    去掉独立性假设,有下面这个恒等式,即联合概率链规则
    P(x1,x2,x3,...,xn)=P(x1)P(x2|x1)P(x3|x1,x2)...P(xn|x1,x2,...,xn−1)

    其中,xi代表一个词,联合概率链规则表示句子中每个词都跟前面一个词有关,而独立性假设则是忽略了一个句子中词与词之间的前后关系。


    2、从联合概率链规则到n-gram语言模型
    联合概率链规则是考虑了句子中每个词之间的前后关系,即第n个词xn与前面n−1个词x1,x2,..,xn−1有关,而n-gram语言模型模型则是考虑了n个词语之间的前后关系,比如n=2时(二元语法(bigram,2-gram)),第n个词xn与前面2−1=1个词有关,即
    P(x1,x2,x3,...,xn)=P(x1)P(x2|x1)P(x3|x2)...P(xn|xn−1)     (3)

    比如n=3时(三元语法(trigram,3-gram)),第n个词xn与前面3−1=2个词有关,即
    P(x1,x2,x3,...,xn)=P(x1)P(x2|x1)P(x3|x1,x2)...P(xn|xn−2,xn−1)(4)

    公式(3)(4)即马尔科夫假设(Markov Assumption):即下一个词的出现仅依赖于它前面的一个或几个词。


    3、N-gram语言模型与马尔科夫假设
    如果对向量 X 采用条件独立假设,就是朴素贝叶斯方法。
    如果对向量 X 采用马尔科夫假设,就是N-gram语言模型。


    原文:https://blog.csdn.net/hao5335156/article/details/82730983

  • 相关阅读:
    HDU 3537
    POJ 1175
    POJ 1021 人品题
    POJ 2068
    POJ 2608
    POJ 2960
    poj 1635
    ustc 1117
    ural 1468
    数字游戏
  • 原文地址:https://www.cnblogs.com/gczr/p/10030935.html
Copyright © 2011-2022 走看看