总结
贝叶斯方法是机器学习中常用的一种方法,在贝叶斯公式中有三部分,先验概率分布函数、似然概率分布函数、和边界似然概率分布函数(贝叶斯公式的分母)。求出了这三部分,就求得了后验概率分布,然后对于一个新样本xnewxnew计算后验概率分布的期望值,这个期望值就是贝叶斯模型的预测结果。
由于后验概率分布的计算依赖于先验概率分布函数、似然概率分布函数,当这二者共轭时,后验概率与先验概率服从相同的分布函数,从而可以推导计算出后验概率分布(posterior could be computed analytically)。但是,当这二者不共轭时,则是计算后验概率分布的近似值。计算近似值一共有三种方法,点估计法(point estimate --- MAP),拉普拉斯近似法,Metropolis-Hastings采样法。而本文主要介绍 是第一种方法:点估计法(point estimate --- maximum a posteriori)。
maximum a posteriori中的最大化体现在哪里呢?其实是体现在似然分布函数的最大化上。黑塞矩阵的负定性证明了g(w;X,t,σ2)g(w;X,t,σ2)有最大值,再使用牛顿法不断迭代找到了这个使得函数gg取最大值的最优参数解w∗w∗。而求得了最优参数w∗w∗,就求得了后验概率分布公式。对于一个待预测的新样本xnewxnew,计算该样本后验概率分布的期望值,这个期望值就是贝叶斯模型对新样本的预测结果。