The Elements of Statistical Learning第3章导读 - 走看看

zoukankan html css js c++ java

The Elements of Statistical Learning第3章导读

1、公式(3.4)的推导。

可以直接对公式(3.3)中的$eta_0$求导就得到$hat{eta}_0=ar{y}-eta_1ar{x}$。

  对公式(3.3)中的$eta_0$求导会有：

$(y_1-hat{eta_0}-hat{eta_1}x_1)x_1+(y_2-hat{eta_0}-hat{eta_1}x_2)x_2ldots+(y_n-hat{eta_0}-hat{eta_1}x_n)x_n$

将$hat{eta}_0=ar{y}-eta_1ar{x}$代入上面的式子就有：

$displaystyle sum_{i=0}^n (y_i-(ar{y}-eta_1ar{x})-hat{eta_1}x_i)x_i $

  $displaystyle = sum_{i=0}^n (y_ix_i-ar{y}x_i+eta_1ar{x}x_i-hat{eta_1}x_i^2) $ 公式(1)

注意这样两个事实：

(a) $displaystyle sum_{i=0}^n left(-x_i+ar{x} ight)ar{x}=sum_{i=0}^n left(-x_iar{x}+ar{x}^2 ight)=0$

(b) $displaystyle sum_{i=0}^n left(-y_i+ar{y} ight)ar{x}=sum_{i=0}^n left(-y_iar{x}+ar{y}ar{x} ight)=0$

将这个两个等式代入到公式(1)中，则有

$displaystyle sum_{i=0}^nleft(y_ix_i-ar{y}x_i-ar{x}(y_i-ar{y}-left( ar{x}x_i+x_i^2-x_iar{x}+ar{x}^2 ight) hat{eta_1} ight) $

   $displaystyle = sum_{i=0}^nleft((y_i-ar{y})(x_i-ar{x})-( x_i-ar{x})^2hat{eta_1} ight)$

2、公式(3.7)的由来。

公式(3.7)反应了样本均值与总体(Population) 均值之间的偏离程度。假设总体的均值为$mu$，方差为$sigma^2$，$mu_1,mu_2,ldots,mu_n$是从总体中抽取的$n$个样本。样本均值$ar{mu}=frac{1}{n}sum_{i=1}^nmu_i$，则有：

$var(ar{mu})=E(ar{mu}-E(ar{mu}))=Eleft(frac{1}{n}sum_{i=1}^n(mu_i-mu) ight)=frac{sigma^2}{n}$

这个公式需要用到这样的事实：各个样本之间是独立的随机变量，比如$x_1,x_2$是独立同分布的随机变量，其对应的分布的期望和方差分别为$mu$和$sigma^2$，则：

$Eleft(x_1+x_2-E(x_1+x_2) ight)^2=Eleft(x_1+x_2-2mu ight)^2=E(x_1^2)+E(x_2^2)+2E(x_1x_2)-4mu E(x_1)-4mu E(x_2)+4mu^2)$

$=E(x_1^2)+E(x_2^2)-2mu^2=2sigma^2$

注意，由于前面已经假设$x_1,x_2$是独立的，则$E(x_1x_2)=E(x_1)E(x_2)$。

3、公式(3.8)的推导。

可用方差(或标准差的平方)来度量某次参数估计与参数的均值之间差多远(见公式(3.7))。在对参数$hat{eta_1}$的估计中，随机变量是$y_i=f(x_i)+epsilon_i$，其中$var(epsilon_i)=sigma^2$，因此有$varleft(y_i-ar{y} ight)=sigma^2$（注意，这里的$ar{y}$是由多个$y_i$相加而得到，可看成是一个常量，实际上它会接近于$epsilon_i$对应的分布的均值）。这里假定$epsilon_i$是对同一分布采样得到，而且这些采样是独立的（见原版书Pxx也是这样规定的），则

$displaystyle sum_{i=1}^n varleft((x_i-ar{x})(y_i-ar{y}) ight)=nsigma^2left(sum_{i=1}^n(x_i-ar{x})^2 ight)$

这个等式成立是利用了这样的定理：若随机变量$xi_1$与$xi_2$互不相关，则$var(xi_1+xi_2)=var(xi_1)+var(xi_2)$。

因此，有

$SEleft(hat{eta_1} ight)^2=SEleft(frac{sum_{i=1}^nleft((x_i-ar{x})(y_i-ar{y}) ight)}{sum_i^n(x_i-ar{x})} ight)^2=frac{nsigma^2left(sum_{i=1}^n(x_i-ar{x})^2 ight)}{nleft(sum_{i=1}^n(x_i-ar{x})^4 ight)}=frac{sigma^2}{left(sum_{i=1}^n(x_i-ar{x})^2 ight)}$

注意，上面这个等式中的$(x_i-ar{x}$不是随机变量。

同理可得$SE(hat{eta_0})^2=sigma^2left[frac{1}{n}-frac{ar{x}^2}{left(sum_{i=1}^n(x_i-ar{x})^2 ight)} ight]$

4、公式(3.23)的说明。

公式(3.23)的分子是一个自由度为p的卡方分布(chi squred distribution);而分每是一个自由度为(n-p-1)的卡方分布，因此它们相除就是F分布，即F(p,n-p-1)。



查看全文

相关阅读:
一个合格的程序员应该读过哪些书
 一个程序员如何快速赚到一百万？
如何创造财富？硅谷创业之父 Paul Graham 《黑客与画家》思维导图
 java 入门书籍（java7）
活动预售和预热的目的
 活动策划
 店铺费率把控
 如何通过店铺数据分析店铺异常原因？
刷单三大目的？如何安全、低成本、高效完成刷单
 活动报名技巧之——天天特卖

原文地址：https://www.cnblogs.com/ml-cv/p/6131950.html

Copyright © 2011-2022 走看看