数据分析的统计基础4

zoukankan html css js c++ java

数据分析的统计基础4
大数定律、中心极限定理与几大导出分布

大数定律

令(X_1,X_2,...,X_i...)是独立随机变量序列，(E(X_i)=mu)，(Var(X_i)=sigma^2)。令(ar X_n = n^{-1}sum limits_{i=1}^{n}X_i)。那么对于任意的(varepsilon >0)，当(n o infty)时，有

[P(|ar X_n - mu | > varepsilon) o 0 ]
证明：首先计算(E(ar X_n))和(Var(ar X_n))：

根据期望的线性性质，(E(ar X_n) = frac{1}{n}sum limits_{i=1}^{n}E(X_i) = mu)

又因为(X_i)独立，(Var(ar X_n) = frac{1}{n^2}sum limits_{i=1}^{n}Var(X_i) = frac{sigma^2}{n})

然后利用切比雪夫不等式即可：

[P(|ar X_n - mu| > varepsilon) leq frac{Var(ar X_n)}{varepsilon^2} = frac{sigma^2}{nvarepsilon^2} o 0 ，当n o infty 时 ]
如果随机变量序列(Z_n)满足对任意(varepsilon > 0)，当(n o infty)时，(P(|Z_n - alpha| > varepsilon) o 0)，其中(alpha)是一个标量，那么称(Z_n)依概率收敛。

大数定律告诉我们，如果从同一总体中(无论总体服从何种分布)，进行(n)重独立随机试验，随着(n o infty)，(n)重独立随机试验组成的样本，其样本均值收敛于总体均值。

中心极限定理

如果(X_1,X_2,...)是均值为(mu)和方差为(sigma^2)的独立随机变量序列(无论分布如何)，且(S_n = sum limits_{i=1}^{n}X_i)。由大数定理可知，(S_n/n)依概率收敛至(mu)。这由如下事实得到：

[Var(frac{S_n}{n}) = frac{1}{n^2}sumlimits_{i=1}^{n}(S_n) = frac{nsigma^2}{n^2} = frac{sigma^2}{n} ]
中心极限定理不关心比率(S_n/n)是否收敛到(mu)，而是关心它是如何围绕(mu)波动的。为了分析这种波动，对于(S_n)，均值为(nmu)，方差为(nsigma^2)。我们标准化(减去均值(nmu)，除以标准差(sqrt{nsigma^2}))：

[Z_n = frac{S_n - nmu}{sigma sqrt n} ]
可以证明，(Z_n)收敛于均值为(0)，方差为(1)的的标准正态分布。此时有结论：

(S_n)收敛于均值为(nmu)，方差为(nsigma^2)的正态分布。

(S_n/n)收敛于均值为(mu)，方差为(sigma^2/n)的正态分布。(证明从略)

正态分布的导出分布

(chi^2)分布

定义：如果(Z)是标准正态随机变量，(U=Z^2)的分布称为自由度为(1)的卡方分布。记作：(chi_1^2)
- 如果(X sim N(mu,sigma^2))，那么标准化后的((X-mu)/sigma sim N(0,1))，因此([(X-mu)/sigma]^2 sim chi_1^2)。
- 如果(U_1,U_2,...,U_n)是相互独立的自由度为(1)的卡方随机变量，那么(V = U_1 + U_2 + ... + U_n)称为自由度为(n)的卡方分布，记作(chi_n^2)。
- 相同(lambda)值的独立伽马随机变量之和服从伽马分布，因此自由度为(n)的卡方分布是(alpha=n/2)和(lambda = 1/2)的伽马分布。
- (E(V) = n)，(Var(V)=2n)
- 如果(V)和(U)独立，(Usimchi_n^2)，(Vsimchi_m^2)，那么(U+Vsimchi_{m+n}^2)
(t)分布

定义：如果(Zsim N(0,1))，(Usimchi_n^2)，且(Z)和(U)独立，那么(Z/sqrt{U/n})是自由度为(n)的(t)分布。
- (t)分布的密度函数满足(f(-t)=f(t))，所以(t)分布关于(x=0)对称。
- 当自由度趋于无穷时，(t)分布趋向于标准正态分布；事实上，当自由度超过20或30时，两个分布就非常接近。
- 随着自由度增加，(t)分布随着自由度的增加越来越薄。
(F)分布

令(U)和(V)是自由度分别为(m)和(n)的独立卡方随机变量，(W = frac{U/m}{V/n})的分布称为自由度为(m)和(n)的(F)分布，记作(F_{m,n})
- 可以证明，在(n>2)时，(E(W))存在且等于(n/(n-2))。
- 由(t)分布和(F)分布的定义可知，随机变量(t_n)的平方服从(F_{1,n})分布。
- 对于F分布上的(alpha)分位点，有：(F_{1-alpha}(n_1,n_2)=1/F_alpha(n_2,n_1))
样本均值和样本方差

令(X_1,...,X_n)是独立的(N(mu,sigma^2))随机变量，我们称之为来自正态总体的样本。定义样本均值和样本方差分别为：

[ar X = frac{1}{n}sum limits_{i=1}^{n}X_i 和 S^2 = frac{1}{n-1}sumlimits_{i=1}^{n}(X-ar X)^2 ]
首先，(ar X)是独立正态随机变量的线性组合，它是正态的，且(E(ar X) = mu)，(Var(ar X) = sigma^2/n)。
- (ar X)和(S^2)独立
- ((n-1)S^2/sigma^2)服从自由度为(n-1)的卡方分布
  
  推导：
  
  [frac{1}{sigma^2}sum limits_{i=1}^{n}(X_i - mu)^2 = sum limits_{i=1}^{n}left( frac{X_i - mu}{sigma} ight)^2 sim chi_n^2 ]
  同时，
  
  [frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sum limits_{i=1}^{n}left[left(X_i - ar X ight) + left(ar X - mu ight) ight]^2 ]
  展开平方项，利用(sum limits_{i=1}^{n}(X_i-ar X) = 0)，我们得到：
  
  [frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sumlimits_{i=1}^{n} left(X_i - ar X ight) ^2+ left( frac{ar X - mu}{sigma / sqrt{n}} ight) ^ 2 ]
  这是(W = U + V)的关系形式，(U)和(V)独立，(U)和(V)都服从卡方分布。
- (frac{ar X - mu}{S/sqrt n } sim t_{n-1})
  
  说明：
[ frac{ar X - mu}{S/sqrt n } = frac{left( frac{ar X - mu}{sigma / sqrt n} ight)}{sqrt{S^2/sigma^2}} = frac{left( frac{ar X - mu}{sigma / sqrt n} ight)}{sqrt{frac{(n-1)S^2/sigma^2}{n-1}}} ]
上式中分子服从(N(0,1))分布，((n-1)S^2/sigma^2)服从(chi_{n-1}^2)分布，因此该式服从(t_{n-1})分布
查看全文

相关阅读:
基于u盘身份验证
 新的一年开始了~！
asp.net的条形码
 windows phone (21) Grid元素的Background和Clip
windows phone (19) 深入了解TextBlock
windows phone (25) Canvas元素B
windows phone (20) Image元素
 windows phone (22) 隐藏元素
 windows phone (26) ApplicationBar应用程序栏
 windows phone (27) 基础Button

原文地址：https://www.cnblogs.com/evian-jeff/p/11389924.html

数据分析的统计基础4

大数定律、中心极限定理与几大导出分布

大数定律

中心极限定理

正态分布的导出分布

(chi^2)分布

(t)分布

(F)分布

样本均值和样本方差