最大似然估计与最小二乘估计的区别
标签(空格分隔): 概率论与数理统计
最小二乘估计
对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。
设Q表示平方误差,(Y_{i})表示估计值,(hat{Y}_{i})表示观测值,即(Q = sum_{i=1}^{n}(Y_{i} - hat{Y}_{i})^{2})
最大似然估计
对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。
显然,最大似然估计需要已知这个概率分布函数,一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计与最小二乘估计是等价的,也就是估计的结果是相同的。
最大似然估计原理:
- 当给定样本(x_{1}, x_{2}, ... ,x_{n})时,定义似然函数为(L( heta) = f(x_{1}, x_{2}, ... ,x_{n}; heta));
- (L( heta))看做是( heta)的函数,最大似然估计就是用使(L( heta))达到最大值的(hat{ heta})去估计( heta),这时称(hat{ heta})为( heta)的最大似然估计;
MLE的步骤:
- 由总体分布导出样本的联合概率函数(或联合密度);
- 把样本联合概率函数的自变量看成是已知常数,而把( heta)看做是自变量,得到似然函数(L( heta));
- 求似然函数的最大值(常常取对数,然后求驻点);
- 用样本值带入得到参数的最大似然估计。
例题
设一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?
LSE
设使用LSE估计,出现人头的概率为( heta), 则出现字的概率为(1 - heta)。
已知观测量为:(观测到的)出现人头的概率为(frac{1}{100}), (观测到的)出现字的概率为(frac{99}{100}),则由最小二乘估计:
(Q( heta) = argmin_{ heta}sum_{1}^{100}( heta - hat{ heta})^{2} \
= argmin_{ heta}
{(frac{1}{100} - heta)^{2} + [frac{99}{100} - (1- heta)]^{2} * 99})
令(frac{partial{Q( heta)}}{partial{ heta}} = 0),解得( heta = frac{1}{100});
ML
设使用ML估计,所以x服从伯努利分布,(x sim B(朝上, heta)),
则概率密度函数为:
则连续100次试验的似然函数为:
(P(x_{1}, x_{2},..x_{100}| heta) = C_{100}^{1} heta^{1} * (1 - heta)^{99} = 100 * heta^{1} * (1 - heta)^{99})
最大化似然函数,则( heta)至少为驻点,对似然函数取对数并求偏导:
(ln P(x_{1}, x_{2},..x_{100}| heta) = ln 100 + ln heta + 99ln (1 - heta))
对( heta)求偏导为0,得到:
(frac{partialln P(x_{1}, x_{2},..x_{100}| heta)}{partial heta} = frac{1}{ heta} - frac{99}{1 - heta} = 0), 解得( heta = frac{1}{100}.)
两者虽然得到的估计值是一样的,但是原理完全不同,要对他们的推导过程非常清楚。