这里将MIT的《概率导论》关于贝叶斯统计推断的阐述总结一下。
1、问题描述:
已知:
(1)参数$Theta$的先验分布$p_{Theta}( heta)$
(2)$ heta$给定的前提下,相关变量$X$的分布:$p_{X|Theta}(x| heta)$
(3)$X$的一系列观测样本:$X_1,X_2,cdots,X_n$
求:
参数$Theta$的后验分布:$p_{Theta|X}( heta|x)=frac{p_{X|Theta}(x| heta)p_{Theta}( heta)}{sum_{ heta'}p_{X|Theta}(x| heta')Pp_{Theta}( heta')}propto p_{X|Theta}(x| heta)p_{Theta}( heta)$
2、点估计:
(1)估计量:随机变量$hatTheta=g(X)$
(2)估计值:随机变量取值$hat heta=g(x)$
(3)均方误差
(a) 对任何估计量$hat heta$,定义均方误差为:$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2$
(b) 在有观测值$x$的情况下,定义均方误差为:$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2$
(4)常见估计类型:
(a)最大后验估计:$hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$
(b)最小均方估计:$hat heta=mathrm E[Theta|x]=sum_ heta heta p( heta|x)$
(c)最小线性均方估计
3、最大后验估计
(1) $hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$
(2) 最大后验估计使得选择错误假设的概率达到最小
4、最小均方估计
(1) 无观测值:
当$hat heta=mathrm E[Theta]$时,均方误差达到最小:$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2=mathrm{var}(Theta)$
(2) 有观测值$X=x$
当$hat heta=mathrm E[Theta|x]$时,均方误差达到最小:$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2=mathrm{var}(Theta|x)+E(hat heta-hat heta)=mathrm{var}(Theta|x)$
(3) 最小均方估计的性质
令$hatTheta=mathrm E[Theta|X]$,误差$ ildeTheta=hatTheta-Theta$,有:
(a) 对任意$X=x$, 有$mathrm E[ ildeTheta|x]=mathrm E[hatTheta-Theta|x]=mathrm E[mathrm E[Theta|x]-Theta|x]=mathrm E[Theta|x]-mathrm E[Theta|x]=0$
(b) $mathrm E[ ildeTheta]=mathrm E[mathrm E[ ildeTheta|X]]=mathrm E[0]=0$
(c) $mathrm E[hatTheta ildeTheta]=mathrm E[mathrm E[hatTheta ildeTheta|X]]=mathrm E[hatTheta mathrm E[ ildeTheta|X]]=mathrm E[hatThetacdot 0]=0$
(d) $mathrm{cov}(hatTheta, ildeTheta)=mathrm E[hatTheta ildeTheta]-mathrm E[hatTheta]mathrm E[ ildeTheta]=0-mathrm E[hatTheta]cdot 0=0$
(e) $mathrm{var}( ildeTheta)=mathrm E[( ildeTheta-mathrm E[ ildeTheta])^2]=mathrm E[ ildeTheta^2]=mathrm E[mathrm E[ ildeTheta^2|X]]=mathrm E[mathrm E[( ildeTheta-mathrm E[ ildeTheta|X])^2|X]]=mathrm E[mathrm{var}(Theta|X)]$
(f) $mathrm{var}(hatTheta)=mathrm{var}(mathrm E[Theta|X])$
(g) $mathrm{var}(Theta)=mathrm{var}(hatTheta+ ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)+2mathrm{cov}(hatTheta, ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)=mathrm{var}(mathrm E[Theta|X])+mathrm E[mathrm{var}(Theta|X)]$
5、线性最小均方估计
令$hatTheta=aX+b$,取$a$和$b$使得$mathrm E[(Theta-hatTheta)^2]$最小。
在$a$已经确定的前提下,要获得最小均方,有:
$b=mathrm E[Theta-aX]=mathrm E[Theta]-amathrm E[X]$
代入有
$mathrm E[(Theta-hatTheta)^2]=mathrm E[(Theta-aX-mathrm E[Theta]+amathrm E[X])^2]=mathrm E[((Theta-aX)-E(Theta-aX))^2]=mathrm{var}(Theta-aX)$
$=sigma_Theta^2+a^2sigma_X^2-2acdot mathrm{cov}(Theta,X)$
为求最值,其导数为0:
$2asigma_X-2cdot mathrm{cov}(Theta,X)=0$
因此$a=frac{mathrm{cov}(Theta,X)}{sigma_X^2}= hofrac{sigma_Theta}{sigma_X}$
代入有:
$hatTheta=aX+b=aX+mathrm E[Theta]-amathrm E[X]=mathrm E[Theta]+a(X-mathrm E[X])=mathrm E[Theta]+frac{mathrm{cov}(Theta,X)}{sigma_X^2}(X-mathrm E[X])$
均方估计误差$mathrm E[(Theta-hatTheta)^2]=mathrm{var}(Theta-aX)=sigma_Theta^2+a^2sigma_X^2-2mathrm{cov}(Theta,X)=(1- ho^2)sigma_ heta^2$
6、多变量线性最小均方估计
上述都是单观察值的情形,对于多观察值$(X_1,X_2,cdots,X_n)$,建立联合分布概率比较困难,或者概率分布表达式十分复杂,因此采用简化模型。一种常见的是线性最小均方估计