条件随机场(conditional random field,简称CRF)
- 是一种鉴别式机率模型,是随机场的一种
- 常用于标注或分析序列资料,如自然语言文字或是生物序列。
- 由Lafferty等人于2001年提出
- 结合了最大熵模型和隐马尔可夫模型的特点
- 是一种无向图模型
- 近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
X:X = (x1, x2, x3, ..., xn) 表示输入的序列,也称为观测值,例如句子中所有单词。
Y:Y = (y1, y2, y3, ..., yn) 表示输出的序列,也称为状态值,例如句子中每一个单词的词性。
随机场:随机场是一种图模型,包含结点的集合和边的集合,结点表示一个随机变量,而边表示随机变量之间的依赖关系。如果按照某一种分布随机给图中每一个结点赋予一个值,则称为随机场。
马尔科夫随机场:马尔科夫性质指某一个时刻 t 的输出值只和 t-1 时刻的输出有关系,和更早的输出没有关系。马尔科夫随机场则是一种特殊的随机场,其假设每一个结点的取值只和相邻的结点有关系,和不相邻结点无关。
条件随机场 CRF:CRF 是一种特殊的马尔科夫随机场,CRF 假设模型中只有 X (观测值) 和 Y (状态值)。在 CRF 中每一个状态值 yi 只和其相邻的状态值有关,而观测值 x 不具有马尔科夫性质。注意观测序列 X 是作为一个整体影响 Y 计算,如下图所示。
线性链条件随机场 Linear-chain CRF:线性链条件随机场指序列 Y 和 X 都是线性链的条件随机场,如下图所示。