首先说明一下,机器学习中参数估计方法最基本的就是极大似然估计。极大似然估计结果完全依赖于给定的样本数据,它视待估参数为一个未知但固定的量,从而不考虑先验知识的影响。因此如果样本数据不能很好反映模型的情况,那么得到的参数估计结果就会有较大偏差。
举个简单的例子,我们都知道抛一枚普通硬币,出现正面反面的概率各为1/2。如果现在正面出现9次,反面出现1次,那么用极大似然估计得到的概率就是P(正面)=9/10,P(反面)=1/10,显然是有偏差的。为了减小这个偏差,于是我们就采用贝叶斯估计方法。
回忆一下贝叶斯公式,它是用来计算后验概率的,也就是已知结果求其导致原因的概率。该公式的结果取决于两方面:似然估计和先验概率。正是如此,我们最终的估计结果才更加客观合理地反映模型的参数。
一般地,假设先验概率为P(θ),这假设也称为贝叶斯假设,似然函数为L(θ|X)=P(X|θ),X为样本集合,我们将贝叶斯公式简单表示为P(θ|X)∝P(θ)L(θ|X),这便是θ的贝叶斯估计。
e.g.
假设某时间A在一次试验中发生的概率是θ,为了估计θ,进行了n次独立观测,其中事件A发生了X次,显然X|θ~b(n,θ)
假设我们之前对时间A不了解,从而对发生的概率θ也没有任何信息。在这种情况下,我们采用对区间(0,1)上的均匀分布U(O,1)作为对θ的先验分布,这个假设也称为贝叶斯假设。
进行了n次独立观测后,即可利用贝叶斯公式求出θ的后验分布,也就是我们对θ的估计,这就是贝叶斯估计。
贝叶斯参数估计:一般理论
基本假设:
•类条件概率密度函数p(x|θ)完全已知,只是其中的参数θ未知;
•参数向量θ的先验概率密度函数p(θ) 包含了我们对于θ的全部先验知识;
•其余的关于参数向量θ的信息包含在训练样本中,这些样本独立同分布于未知的概率密度函数p(x)。