zoukankan      html  css  js  c++  java
  • 基于统计语言模型的分词方法

          20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。近10年来,随着统计方法的迅速发展,人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术,称为基于统计模型的分词方法。

          假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列,分词过程应该是求解条件概率P(W|S)最大的词序列W',即

                              W' = argwmaxP(W|S)  -------------------------------1

         根据贝叶斯公式:P(AB) = P(A)P(B|A) 

                                              = P(B)P(A|B)

             1式变为:

                                 W' = argwmaxP(W)P(S|W)/P(S)  --------2

         由于分母为归一化因子,因此2式变为:

                    W' = argwmaxP(W)P(S|W) -----------------------3

  • 相关阅读:
    DOS 错误代码
    WINRAR 建立批处理备份文件
    clear.bat
    continue break
    播放dll中的wav声音
    BAT删除自身del 0
    bat 延时10秒自动关闭自己bat
    产生随机数
    RemoveDirZ.bat
    DELPHI中取整数的方法
  • 原文地址:https://www.cnblogs.com/kaituorensheng/p/2779965.html
Copyright © 2011-2022 走看看