zoukankan      html  css  js  c++  java
  • 【读书笔记】自然语言处理综述 -- 第十四章 -- 统计剖析

    第14章 统计剖析

    CKY算法和Earley算法可以有效地表示句法歧义,但却没有提供排歧的手段。概率语法提供的方法是,可以计算歧义的每一种解释的概率,然后从中选择概率最大的解释。

    概率上下文无关语法(PCFG)最常用。

    14.1 概率上下文无关语法

    上下文无关语法由四个参数定义:

    N(非终极符集合),(sum) (终极符集合),R(规则或产生式集合),S(初始符号)

    概率上下文无关语法,与标准的CFG不同的是,给每一个规则加上了条件概率 A ( o eta [p])
    其中p是(P(eta | A)),且(sum_{eta} P(A o eta) = 1)

    在一个PCFG中,如果一种语言中的所有句子的概率之和为1,就说这个PCFG是坚固的。

    14.1.1 PCFG用于排歧

    一个PCFG可以对于一个句子S的每一个剖析树T都指定一个概率。

    对于句子S,S的单词符号串称为S上的任何剖析谁的剖析产出。排歧算法在句子S剖析产出的所有剖析树中选择对于这个给定的句子S具有最大可能的树作为剖析结果。

    (hat{T}(S) = argmax_{Ts.t.S=yield(T)} P(T|S) = argmax_{Ts.t.S=yield(T)} frac {P(T, S)} {P(S)} = argmax_{Ts.t.S=yield(T)} P(T, S) = argmax_{Ts.t.S=yield(T)} P(T))

    14.1.2 PCFG用于语言建模

    PCFG的另一个特性是可以给句子中的单词符号串指派一个概率。这对于语言建模很有意义。

    歧义句子的概率等于该句子所有剖析树的概率之和。

    14.2 PCFG的概率CKY剖析

    现代大多数的概率剖析器都是基于概率CKY算法。

    概率CKY算法也要求其语法具有Chomsky范式(CNF)。

    14.3 PCFG规则概率的学习路径

    两种途径,一是通过树库学习,如宾州树库,或者没有现成的树库可以使用的时候,可以先剖析一个树库,如果句子没有歧义,那么在剖析中为每个规则加个计数器,然后做归一化处理,既可得到概率。

    然而大多数时候句子是有歧义的,为了解决这个”鸡生蛋,蛋生鸡“的问题,需要一步一步地递增地改善我们的估计值。计算这种解的标准算法称为向内-向外算法。这是期望最大值算法的一个特殊情况。

    14.4 PCFG的问题

    概率上下文无关语法可能有以下两个问题:糟糕的独立性假设,缺乏词汇制约条件。

    14.4.1 独立性假设忽略了规则之间的结构依存关系

    任何一个非终极符号的展开都是上下文无关的。这种独立性假设带到了PCFG中。

  • 相关阅读:
    linux压缩命令
    常用正则表达式
    java23种设计模式
    程序员
    让程序猿离职的非钱原因
    PHP MVC 中的MODEL层
    CSS样式补充代码
    网页中插入背景音乐
    Window.document对象(2)
    Window.document对象(1)
  • 原文地址:https://www.cnblogs.com/yanqiang/p/11912511.html
Copyright © 2011-2022 走看看