统计学习方法第一章课后作业(

统计学分为两派：经典统计学派和贝叶斯统计学派。两者的不同主要是，经典统计学派认为模型已定，参数未知，参数是固定的，只是还不知道；贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。

极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型；极大似然估计用的是经典统计学派的策略，贝叶斯估计用的是贝叶斯统计学派的策略；为了得到使经验风险最小的参数值，使用的算法都是对经验风险求导，使导数为0.

其中 $a, b$

$a, b$

一个常数：在beta分布中，这个常数只是为了使得这个分布的概率密度积分等于1才加上的。

注：贝叶斯估计与极大似然估计的差别

贝叶斯估计引入了先验概率，通过先验概率与似然概率来求解后验概率。而最大似然估计是直接通过最大化似然概率来求解得出的。

换句话说，最大似然估计没有考虑模型本身的概率，或者说认为模型出现的概率都相等。而贝叶斯估计将模型出现的概率用先验概率的方式在计算过程中有所体现。

具体例子可以见

假如人们会感染一种病毒，有一种测试方法，在被测试者已感染这个病毒时，测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时，测试结果为阳性的概率为2%。现在，有一个人的测试结果为阳性，问这个人感染了病毒吗？
如果用最大似然估计的方法，既然感染了病毒出现阳性的概率为95%，没感染出现阳性的概率为2%，本着谁大像谁的原则，那我就认为这个人已经感染了病毒。
但是如果用贝叶斯方法进行估计，如果我们得知有一个先验概率，比如整体人群中只有1%的人会感染此种病毒，那么由贝叶斯公式：

但是注意：

MLE简单又客观，但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下，MLE的效果并不好。比如我们前面举的病毒的例子。在这种情况下，我们可以通过加入先验，用贝叶斯估计进行计算。

但是如果数据多的时候运用贝叶斯会发生一些事情哦：
例子：

棒球击球率(batting average)，就是用一个运动员击中的球数除以击球的总数，我们一般认为0.266是正常水平的击球率，而如果击球率高达0.3就被认为是非常优秀的。

现在有一个棒球运动员，我们希望能够预测他在这一赛季中的棒球击球率是多少。

用贝叶斯估计，引入先验概率p(θ),θ服从β分布，根据先验信息转换为beta分布的参数，我们知道一个击球率应该是平均0.27左右，而他的范围是0.21到0.35，那么根据这个信息，我们可以取 $α = 81, β = 219$

$α = 81, β = 219$

假设一共打了300次，其中击中了100次，200次没击中，那么这一新分布就是：

1.2