zoukankan      html  css  js  c++  java
  • 条件随机场介绍(一)

    本文翻译自Conditional Random Fields: An Introduction. Hanna M. Wallach February 24, 2004

    1.序列标注

    对一组观察序列进行标注在生物信息学,计算语言学和语音识别等领域都有广泛的应用。例如,考虑下面自然语言处理任务:对一句话中的单词进行成分分析(POS)。在该任务中,每个单词都要赋值一个标签,代表其在句子中的成分。标注的结果形如:

    [PRP He] [VBZ reckons] [DT the] [JJ current] [NN account] [NN

    deficit] [MD will] [VB narrow] [TO to] [RB only] [# #] [CD 1.8] [CD

    billion] [IN in] [NNP September] [. .]

    在对句子进行这样标注后,我们就有可能完成做其他高层次的自然语言处理任务。POS带给我们仅仅靠单词无法获得的信息,也即句子的内在结构。

    应付这样的任务一个常用的方法是隐式马尔科夫模型(HMM)或者概率有限状态机。它们对任意给定的句子中单词的找出最可能标注序列。HMMs是一种生成模型,它定义一个联合概率分布P(X,Y),其中XY分别表示观察序列和相应的标签序列的随机变量。而定义这样的联合概率,生成模型必须列举所有观察序列的可能值,这对多数领域来说是比较困难的,除非观察序列中的每个元素都相互独立。更准确地说,在任何时刻观察值仅仅与状态(即要标注的标签)有关。对于简单的数据集,这个假设倒是合理的。但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。

    上面的问题是序列数据标注最基础的问题之一。显然一个支持可推导的模型是必要的,然而一个无需对数据进行不可靠的独立性假设的模型同样是可贵的。一个这样标准的方法就是对给出的观察序列x计算条件概率分布p(Y delim{|}{x}{})而不是在数据和标签上的联合概率分布P(X,Y)。对于一个新的观察序列x_{s},选择y_{s}使得条件概率p(Y_{s} delim{|}{x_{s}}{})最大。条件概率的特性使得我们无需花费精力对观察值进行建模,并无需对数据序列进行不可靠的独立性假设;模型能够从观察序列中提取任意数目的属性,而不用担心它们之间是否相关。

    条件随机场(CRFs)是一个用于标注和切分序列数据的概率框架,它基于前面段落对条件概率的描述。一个CRF是一个无向图模型,对给出的观察序列,它定义一个在标签序列上的条件对数线性概率分布。CRF的优于HMM的一个主要地方是它的条件特征,无需对数据进行不必要的独立性假设。另外,CRF避免了标注偏执问题(the label bias problem),这是MEHMMs和其他基于有向图的模型的一个软肋。CRF的性能在一系列的现实世界的序列标注任务中都好于MEHMMs和HMMs。

     
  • 相关阅读:
    数码管按键加减一
    单片机软件proteus的汉化步骤
    不同位数数字取个十百千位数字的代码
    直升机基础知识
    数码管应用digital_pile
    proteus中的常用文件
    蜂鸣器类代码
    延时函数sys
    求数组最大子数组
    Python数据结构与算法
  • 原文地址:https://www.cnblogs.com/retrieval/p/2466591.html
Copyright © 2011-2022 走看看