zoukankan      html  css  js  c++  java
  • 基于统计语言模型的分词方法

          20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。近10年来,随着统计方法的迅速发展,人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术,称为基于统计模型的分词方法。

          假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列,分词过程应该是求解条件概率P(W|S)最大的词序列W',即

                              W' = argwmaxP(W|S)  -------------------------------1

         根据贝叶斯公式:P(AB) = P(A)P(B|A) 

                                              = P(B)P(A|B)

             1式变为:

                                 W' = argwmaxP(W)P(S|W)/P(S)  --------2

         由于分母为归一化因子,因此2式变为:

                    W' = argwmaxP(W)P(S|W) -----------------------3

  • 相关阅读:
    vuex详解
    es6 数组方法的扩展
    es6class语法和继承
    变量的解构赋值
    es6变量let
    前端模块化
    webpack基础
    react中的redux(入门)
    react-router-dom中的BrowserRouter和HashRouter和link与Navlink
    react-router-dom
  • 原文地址:https://www.cnblogs.com/kaituorensheng/p/2779965.html
Copyright © 2011-2022 走看看