大数定律、中心极限定理与几大导出分布
大数定律
令(X_1,X_2,...,X_i...)是独立随机变量序列,(E(X_i)=mu),(Var(X_i)=sigma^2)。令(ar X_n = n^{-1}sum limits_{i=1}^{n}X_i)。那么对于任意的(varepsilon >0),当(n o infty)时,有
证明:首先计算(E(ar X_n))和(Var(ar X_n)):
根据期望的线性性质,(E(ar X_n) = frac{1}{n}sum limits_{i=1}^{n}E(X_i) = mu)
又因为(X_i)独立,(Var(ar X_n) = frac{1}{n^2}sum limits_{i=1}^{n}Var(X_i) = frac{sigma^2}{n})
然后利用切比雪夫不等式即可:
如果随机变量序列(Z_n)满足对任意(varepsilon > 0),当(n o infty)时,(P(|Z_n - alpha| > varepsilon) o 0),其中(alpha)是一个标量,那么称(Z_n)依概率收敛。
大数定律告诉我们,如果从同一总体中(无论总体服从何种分布),进行(n)重独立随机试验,随着(n o infty),(n)重独立随机试验组成的样本,其样本均值收敛于总体均值。
中心极限定理
如果(X_1,X_2,...)是均值为(mu)和方差为(sigma^2)的独立随机变量序列(无论分布如何),且(S_n = sum limits_{i=1}^{n}X_i)。由大数定理可知,(S_n/n)依概率收敛至(mu)。这由如下事实得到:
中心极限定理不关心比率(S_n/n)是否收敛到(mu),而是关心它是如何围绕(mu)波动的。为了分析这种波动,对于(S_n),均值为(nmu),方差为(nsigma^2)。我们标准化(减去均值(nmu),除以标准差(sqrt{nsigma^2})):
可以证明,(Z_n)收敛于均值为(0),方差为(1)的的标准正态分布。此时有结论:
(S_n)收敛于均值为(nmu),方差为(nsigma^2)的正态分布。
(S_n/n)收敛于均值为(mu),方差为(sigma^2/n)的正态分布。(证明从略)
正态分布的导出分布
(chi^2)分布
定义:如果(Z)是标准正态随机变量,(U=Z^2)的分布称为自由度为(1)的卡方分布。记作:(chi_1^2)
- 如果(X sim N(mu,sigma^2)),那么标准化后的((X-mu)/sigma sim N(0,1)),因此([(X-mu)/sigma]^2 sim chi_1^2)。
- 如果(U_1,U_2,...,U_n)是相互独立的自由度为(1)的卡方随机变量,那么(V = U_1 + U_2 + ... + U_n)称为自由度为(n)的卡方分布,记作(chi_n^2)。
- 相同(lambda)值的独立伽马随机变量之和服从伽马分布,因此自由度为(n)的卡方分布是(alpha=n/2)和(lambda = 1/2)的伽马分布。
- (E(V) = n),(Var(V)=2n)
- 如果(V)和(U)独立,(Usimchi_n^2),(Vsimchi_m^2),那么(U+Vsimchi_{m+n}^2)
(t)分布
定义:如果(Zsim N(0,1)),(Usimchi_n^2),且(Z)和(U)独立,那么(Z/sqrt{U/n})是自由度为(n)的(t)分布。
- (t)分布的密度函数满足(f(-t)=f(t)),所以(t)分布关于(x=0)对称。
- 当自由度趋于无穷时,(t)分布趋向于标准正态分布;事实上,当自由度超过20或30时,两个分布就非常接近。
- 随着自由度增加,(t)分布随着自由度的增加越来越薄。
(F)分布
令(U)和(V)是自由度分别为(m)和(n)的独立卡方随机变量,(W = frac{U/m}{V/n})的分布称为自由度为(m)和(n)的(F)分布,记作(F_{m,n})
- 可以证明,在(n>2)时,(E(W))存在且等于(n/(n-2))。
- 由(t)分布和(F)分布的定义可知,随机变量(t_n)的平方服从(F_{1,n})分布。
- 对于F分布上的(alpha)分位点,有:(F_{1-alpha}(n_1,n_2)=1/F_alpha(n_2,n_1))
样本均值和样本方差
令(X_1,...,X_n)是独立的(N(mu,sigma^2))随机变量,我们称之为来自正态总体的样本。定义样本均值和样本方差分别为:
首先,(ar X)是独立正态随机变量的线性组合,它是正态的,且(E(ar X) = mu),(Var(ar X) = sigma^2/n)。
-
(ar X)和(S^2)独立
-
((n-1)S^2/sigma^2)服从自由度为(n-1)的卡方分布
推导:
[frac{1}{sigma^2}sum limits_{i=1}^{n}(X_i - mu)^2 = sum limits_{i=1}^{n}left( frac{X_i - mu}{sigma} ight)^2 sim chi_n^2 ]同时,
[frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sum limits_{i=1}^{n}left[left(X_i - ar X ight) + left(ar X - mu ight) ight]^2 ]展开平方项,利用(sum limits_{i=1}^{n}(X_i-ar X) = 0),我们得到:
[frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sumlimits_{i=1}^{n} left(X_i - ar X ight) ^2+ left( frac{ar X - mu}{sigma / sqrt{n}} ight) ^ 2 ]这是(W = U + V)的关系形式,(U)和(V)独立,(U)和(V)都服从卡方分布。
-
(frac{ar X - mu}{S/sqrt n } sim t_{n-1})
说明:
上式中分子服从(N(0,1))分布,((n-1)S^2/sigma^2)服从(chi_{n-1}^2)分布,因此该式服从(t_{n-1})分布