CRF条件随机场
CRF的出现是为了解决标注偏差的问题
参考白板推导系列https://www.bilibili.com/video/BV19t411R7QU?from=search&seid=14157569437204270961
背景引入
这里补充一点线性判别LDA:类内间距最小,类间最大~
逻辑回归本身是一个二分类的问题
当是多分类的时候:softmax时候从熵的角度来看是最大熵原则~
最大熵:满足给定事实的情况下,其熵分布满足指数族分布
在满足给定样本均值和方差分布的情况下。其最大熵的分布满足高斯分布~
逻辑回归最大熵作分类的时候其都可以看作对数线性组合~
生成式模型~
朴素贝叶斯假设特征之间是相互独立的,这个是强假设~
HMM
生成模型
那么如何从贝叶斯引出马尔可夫呢?
可以这么想:
朴素贝叶斯研究的是一个分类的问题,当把分类y(0/1)问题变成一个标注问题(也就是加上(时间)这个序列)的时候,由此引出隐马尔可夫模型(HMM)
当然HMM是有两个很强的条件的:
要求:
- 马氏链:齐次马尔可夫,隐状态((y_i)是一个离散的)
- 观测变量相互独立:X1,X2...在给定y的条件下相互独立
高斯混合模型~
从高斯模型怎么过度到HMM呢?
增加时间序列
最大熵隐马尔可夫模型MEMM
HMM+最大熵模型的演变
注意哦这个是一个判别模型研究的是P(y|x)也就是一个标注问题,而且MEMM的出现去掉了HMM的一个强假设(先验条件):就是不需要观测变量相互独立了,其实也就是改变了一个箭头的方向
ok,以上就是综述,接下来开始正题
HMM与MEHMM的关系
从HMM讲起白板推导系列
HMM的两个重要前提条件
-
马尔可夫齐次一阶:
-
观测序列独立假设:也就是朴素贝叶斯的独立性假设
(lambda)=((pi,a,b))
马尔可夫之所以出现就是为了优化模型:例如在一个序列中,(x_1)与(x_2..x_n)其实都是应该有关系的,但是计算量上就会大很多,而马尔可夫优化了这个状态,即(x_i)只与它前一个状态(X_{i-1})有关
齐次:就是每个状态的转移是服从一个离散分布的,并且每个状态转移的分布是一致的
至于HMM与MEHMM的关系我觉得
下面这个图足以
注意
对于马尔可夫链式结构,我们在做非文本结构转化到文本结结构的时候更关系序列标准的问题,因此直接求条件概率即可,先求联合概率再求条件概率的话使问题复杂化~
ok接下来接下来就讲
MEMM与CRF
重点来啦~
条件随机场CRF
条件:指的是判别式模型
随机场:指的是无向图模型
CRF的概率密度函数~
概率图的两种形式
learning就是计算算法模型超参数取值的过程;inference往往是预测的过程。
learning:学习参数
inference:
- 边缘概率
- 条件概率
- MAP:最大后验概率:decodinng(一个序列标注的问题)找到一个y序列找他的概率能达到最大
IID:独立同分布~
CRF求边缘概率
CRF参数估计
待补充~