y=ax+b+e
在这一基础上:
又可以写成, y=ax+b+e, |e|^2=((ax+b)-y)^2
随机干扰项 sigma e^2 和残差平方和有类似的性质?
为什么这里需要这样修正呢?自由度为什么是 n-2 ?
估计量的评估----无偏性需要满足:
- 无偏性不是要求估计量与总体参数不得有偏差,因为这是不可能的,既然是抽样,必然存在抽样误差,不可能与总体完全相同。
- 无偏性指的是如果对这同一个总体反复多次抽样,则要求各个样本所得度出的估计量的平均值等于总体参数。
而他说的有偏估计是什么?
有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值。
自由度:
- 统计知学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度.
- 自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
实际的例子有:
例1
有一个有4个数据()的样本,其平均值等于5,即受到的条件限制,
在自由确定4、2、5三个数据后, 第四个数据只能是9,否则 。
因而这里的自由度 .
推而广之,任何统计量的自由度
(k为限制条件的个数)例2
如果用刀剖柚子,在北极点沿经线方向割3刀,得6个角。这6个角可视为3对。6个角的平均角度一定是60度。
其中半边3个角中,只会有2个可以自由选择,一旦2个数值确定第3个角也会唯一地确定。
在总和已知的情况下,切分角的个数比能够自由切分的个数大1。
在这里对于随机误差项e也是这样:
我们限制条件是ab参数已知,而 ab已知的前提就是至少有两个样本点, 这样才能拟合出来一对ab
所以,其中有两个样本点已经被确定了, 相当于有两个样本中的e的值是确定的, 要排除掉 -2
所以 自由度= n-2
至于自由度的公式=n-k ,是怎么来的呢?
可以用线性代数的高斯消元法来解释,
k是确定的参数个数, 其实就是方程组未知数的个数, 我们要求k个未知数确定
就是k个未知数有且只有唯一解,
那么消元到最后方程组个数/矩阵非0行数----m-----必须满足 m=k,这是个充要条件
所以至少有m=k个已知样本,或者说确定的样本必须有k个,
所以自由度n-k. k是限制条件的个数.
那从这个角度, 反过来再想想什么是自由呢?
我们看n个样本,还有,n-k个样本是未知的,
相当于还有n-k个未知数解是无穷的,这就叫自由