内容总结自自花书《deep learning》Chapter 5,由英文版翻译而来。英文版官网可以免费查阅:http://www.deeplearningbook.org/
频率派统计(frequentist statistics)
在频率派估计的观点下,真实参数集 θ pmb{ heta} θθθ是固定的但未知,我们使用作为数据集函数的随机变量 θ ^ hat{pmb{ heta}} θθθ^作为点估计。频率派统计基于 θ ^ hat{pmb{ heta}} θθθ^作所有的预测。
贝叶斯统计(Bayesian Statistics)
贝叶斯派的观点完全不同。贝叶斯使用概率来反映知识状态的确定程度。数据集是直接能够观测到因而不是随机的。贝叶斯派认为真实 θ pmb{ heta} θθθ是未知的或不确定的,因此以一个随机变量来表示。(注意在上一小节中, θ ^ hat{pmb{ heta}} θθθ^是随机变量而不是 θ pmb{ heta} θθθ。)
在观测数据之前,我们使用先验概率分布 p ( θ ) p(pmb{ heta}) p(θθθ)来表示我们(已知的)关于 θ pmb{ heta} θθθ的知识。一般来说,机器学习实践者会使用一个比较宽泛(高熵)的先验分布,反映了在观测任何数据之前对 θ pmb{ heta} θθθ值的不确定性。
在使用贝叶斯估计的典型场景下,先验一般以一个高熵的相对而言均匀分布或高斯分布开始,对数据的观测会使得后验损失熵并且集中在一些非常接近参数的值附近。
贝叶斯统计(Bayesian Statistics)与最大似然估计(maximum likelihood estimation)
注:最大似然估计是点估计的一种常用的方法,也就是频率派估计的一种。相较于最大似然估计,贝叶斯估计有两个不同的地方。第一,不同于最大似然估计方法使用
θ
pmb{ heta}
θθθ的一个点估计来做预测,贝叶斯方法使用在
θ
pmb{ heta}
θθθ上的全分布来做预测。
频率派方法通过评估方差来解决给定
θ
pmb{ heta}
θθθ的点估计的不确定性。一个估计器(estimator)的方差是对在观测数据的不同采样下估计会如何变化的评定。贝叶斯通过简单地在其上积分来应对不确定性,这倾向于防止过拟合。积分只是概率规则的一次应用,这使得贝叶斯方法容易被验证。而频率派的机制是基于特定的决策对使用点估计表示的数据集中包含的知识做累加。
第二个不同之处在于贝叶斯估计的先验。先验会使得概率质量密度(probability mass density)朝着一个先验所青睐的参数空间区域偏移。在实际使用中,先验通常表达对一个更简单或者更平滑的模型的偏爱。批评者认为先验是人类主观判断影响预测的一个源头。
贝叶斯方法通常在有限的训练数据下泛化良好。但当训练样本很大时受制于庞大的计算开销。