1、机器学习最重要的任务就是根据已有的一系列证据(例如训练样本)来对未知变量(例如类别标记)进行估计和推测。
2、概率图分为两类:
1)、使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网(Bayesian network)。
2)、使用无向图表示变量间的相互关系,称为无向图模型或马尔可夫网(Markov network)。
3、隐马尔可夫模型(Hiddden Markov Model,简称HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network),这是一种著名的生成式有向图模型,主要用于时序数据建模,在语音识别、自然语言处理等领域有广泛应用。
4、马尔可夫链(Markov chain):系统下一时刻的状态仅由当前状态决定,不依赖与以往的任何状态。
5、确定一个隐马尔可夫模型需要三个参数:状态转移概率、输出转移概率、初始状态概率。
6、马尔可夫随机场(Markov Random Field,简称MRF)是典型的马尔可夫网,是一种著名的生成式无向图模型。图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。
1)、全局马尔科夫性:给定两个变量子集的分离集,则这两个变量子集条件独立。
7、由全局马尔可夫性可得到两个推论:
1)、局部马尔可夫性(local Markov property):给定某个变量的邻接变量,则该变量条件独立于其他变量。
2)、成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。
8、条件随机场(Conditional Random Field,简称CRF)是一种判别式无向图模型。
1)、条件随机场试图对多个变量在给定观测值后的条件概率进行建模。
2)、条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;
但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。
9、概率图模型推断方法大致分为两类:
1)、精确推断法,希望能计算出目标变量的边际分布或条件分布的精确值。其缺点就是,这类算法的计算复杂度随着极大规模的增长呈指数增长,适用范围有限。
2)、近似推断法,希望在较低的时间复杂度下获得原问题的近似解。这类方法在现实中常用。
10、精确推断算法是一类动态规划算法,他利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。变量消去法是最直观的精确推断算法,也是其他精确推断算法的基础。
1)、变量消去的缺点:若需计算多个边际分布,重复使用变量消去法将会造成大量的冗余计算。
2)、信念传播(Belief Propagation)算法将变量消去法中的求和操作看做一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。
11、近似推断方法大致分为两类:
1)、采样(sampling),使用随机化方法完成近似。
2)、使用确定性近似完成近似推断,典型代表为变分推断(variational inference).
12、概率图模型中最常用的采样技术是马尔可夫链蒙特卡洛(Markov Chain Monte Carlo,简称MCMC)方法。
1)、MCMC方法的关键就在于通过构造“平稳分布为p的马尔科夫链”来产生样本。
2)、MCMC方法先设法构造一条马尔可夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔可夫链来产生符合后验分布的样本,并基于这些样本来进行估计。
3)、Metropolis-Hasting(简称MH)算法是MCMC的重要代表,它基于“拒绝采样”(reject sampling)来逼近平稳分布p。
4)、吉布斯采样(Gibbs sampling)被视作MH算法的特例,它也是使用马尔可夫链来获取样本,而该马尔可夫链的平稳分布也是采样的目标分布。
13、变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优解、但具有确定解的近似后验分布。
14、话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据,在信息检索、自然语言处理等领域有广泛应用。
1)、狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。