zoukankan      html  css  js  c++  java
  • 基于统计语言模型的分词方法

          20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。近10年来,随着统计方法的迅速发展,人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术,称为基于统计模型的分词方法。

          假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列,分词过程应该是求解条件概率P(W|S)最大的词序列W',即

                              W' = argwmaxP(W|S)  -------------------------------1

         根据贝叶斯公式:P(AB) = P(A)P(B|A) 

                                              = P(B)P(A|B)

             1式变为:

                                 W' = argwmaxP(W)P(S|W)/P(S)  --------2

         由于分母为归一化因子,因此2式变为:

                    W' = argwmaxP(W)P(S|W) -----------------------3

  • 相关阅读:
    Sql Server 2016数据库定时备份操作步骤
    .net 生成原图和多张缩略图
    python小知识
    python小知识
    Q pi (lambda)
    GAE&reward shaping
    yield函数
    关于vs code和markdown
    强化学习第七章
    强化学习第六章
  • 原文地址:https://www.cnblogs.com/kaituorensheng/p/2779965.html
Copyright © 2011-2022 走看看