zoukankan      html  css  js  c++  java
  • 数据分析的统计基础4

    大数定律、中心极限定理与几大导出分布

    大数定律

    (X_1,X_2,...,X_i...)是独立随机变量序列,(E(X_i)=mu)(Var(X_i)=sigma^2)。令(ar X_n = n^{-1}sum limits_{i=1}^{n}X_i)。那么对于任意的(varepsilon >0),当(n o infty)时,有

    [P(|ar X_n - mu | > varepsilon) o 0 ]

    证明:首先计算(E(ar X_n))(Var(ar X_n))

    根据期望的线性性质,(E(ar X_n) = frac{1}{n}sum limits_{i=1}^{n}E(X_i) = mu)

    又因为(X_i)独立,(Var(ar X_n) = frac{1}{n^2}sum limits_{i=1}^{n}Var(X_i) = frac{sigma^2}{n})

    然后利用切比雪夫不等式即可:

    [P(|ar X_n - mu| > varepsilon) leq frac{Var(ar X_n)}{varepsilon^2} = frac{sigma^2}{nvarepsilon^2} o 0 ,当n o infty 时 ]

    如果随机变量序列(Z_n)满足对任意(varepsilon > 0),当(n o infty)时,(P(|Z_n - alpha| > varepsilon) o 0),其中(alpha)是一个标量,那么称(Z_n)依概率收敛。

    大数定律告诉我们,如果从同一总体中(无论总体服从何种分布),进行(n)重独立随机试验,随着(n o infty)(n)重独立随机试验组成的样本,其样本均值收敛于总体均值。

    中心极限定理

    如果(X_1,X_2,...)是均值为(mu)和方差为(sigma^2)的独立随机变量序列(无论分布如何),且(S_n = sum limits_{i=1}^{n}X_i)。由大数定理可知,(S_n/n)依概率收敛至(mu)。这由如下事实得到:

    [Var(frac{S_n}{n}) = frac{1}{n^2}sumlimits_{i=1}^{n}(S_n) = frac{nsigma^2}{n^2} = frac{sigma^2}{n} ]

    中心极限定理不关心比率(S_n/n)是否收敛到(mu),而是关心它是如何围绕(mu)波动的。为了分析这种波动,对于(S_n),均值为(nmu),方差为(nsigma^2)。我们标准化(减去均值(nmu),除以标准差(sqrt{nsigma^2})):

    [Z_n = frac{S_n - nmu}{sigma sqrt n} ]

    可以证明,(Z_n)收敛于均值为(0),方差为(1)的的标准正态分布。此时有结论:

    (S_n)收敛于均值为(nmu),方差为(nsigma^2)的正态分布。

    (S_n/n)收敛于均值为(mu),方差为(sigma^2/n)的正态分布。(证明从略)

    正态分布的导出分布

    (chi^2)分布

    定义:如果(Z)是标准正态随机变量,(U=Z^2)的分布称为自由度为(1)的卡方分布。记作:(chi_1^2)

    • 如果(X sim N(mu,sigma^2)),那么标准化后的((X-mu)/sigma sim N(0,1)),因此([(X-mu)/sigma]^2 sim chi_1^2)
    • 如果(U_1,U_2,...,U_n)相互独立的自由度为(1)的卡方随机变量,那么(V = U_1 + U_2 + ... + U_n)称为自由度为(n)的卡方分布,记作(chi_n^2)
    • 相同(lambda)值的独立伽马随机变量之和服从伽马分布,因此自由度为(n)的卡方分布是(alpha=n/2)(lambda = 1/2)的伽马分布。
    • (E(V) = n)(Var(V)=2n)
    • 如果(V)(U)独立,(Usimchi_n^2)(Vsimchi_m^2),那么(U+Vsimchi_{m+n}^2)

    (t)分布

    定义:如果(Zsim N(0,1))(Usimchi_n^2),且(Z)(U)独立,那么(Z/sqrt{U/n})是自由度为(n)(t)分布。

    • (t)分布的密度函数满足(f(-t)=f(t)),所以(t)分布关于(x=0)对称。
    • 当自由度趋于无穷时,(t​)分布趋向于标准正态分布;事实上,当自由度超过20或30时,两个分布就非常接近。
    • 随着自由度增加,(t​)分布随着自由度的增加越来越薄。

    (F)分布

    (U)(V)是自由度分别为(m)(n)的独立卡方随机变量,(W = frac{U/m}{V/n})的分布称为自由度为(m)(n)(F)分布,记作(F_{m,n})

    • 可以证明,在(n>2)时,(E(W))存在且等于(n/(n-2))
    • (t)分布和(F)分布的定义可知,随机变量(t_n)的平方服从(F_{1,n})分布。
    • 对于F分布上的(alpha)分位点,有:(F_{1-alpha}(n_1,n_2)=1/F_alpha(n_2,n_1))

    样本均值和样本方差

    (X_1,...,X_n)是独立的(N(mu,sigma^2))随机变量,我们称之为来自正态总体的样本。定义样本均值和样本方差分别为:

    [ar X = frac{1}{n}sum limits_{i=1}^{n}X_i 和 S^2 = frac{1}{n-1}sumlimits_{i=1}^{n}(X-ar X)^2 ]

    首先,(ar X)是独立正态随机变量的线性组合,它是正态的,且(E(ar X) = mu)(Var(ar X) = sigma^2/n)

    • (ar X)(S^2)独立

    • ((n-1)S^2/sigma^2)服从自由度为(n-1)的卡方分布

      推导:

      [frac{1}{sigma^2}sum limits_{i=1}^{n}(X_i - mu)^2 = sum limits_{i=1}^{n}left( frac{X_i - mu}{sigma} ight)^2 sim chi_n^2 ]

      同时,

      [frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sum limits_{i=1}^{n}left[left(X_i - ar X ight) + left(ar X - mu ight) ight]^2 ]

      展开平方项,利用(sum limits_{i=1}^{n}(X_i-ar X) = 0​),我们得到:

      [frac{1}{sigma^2}sum limits_{i=1}^{n}left(X_i - mu ight)^2 = frac{1}{sigma^2}sumlimits_{i=1}^{n} left(X_i - ar X ight) ^2+ left( frac{ar X - mu}{sigma / sqrt{n}} ight) ^ 2 ]

      这是(W = U + V)的关系形式,(U)(V)独立,(U)(V)都服从卡方分布。

    • (frac{ar X - mu}{S/sqrt n } sim t_{n-1})

      说明:

    [ frac{ar X - mu}{S/sqrt n } = frac{left( frac{ar X - mu}{sigma / sqrt n} ight)}{sqrt{S^2/sigma^2}} = frac{left( frac{ar X - mu}{sigma / sqrt n} ight)}{sqrt{frac{(n-1)S^2/sigma^2}{n-1}}} ]

    上式中分子服从(N(0,1))分布,((n-1)S^2/sigma^2)服从(chi_{n-1}^2)分布,因此该式服从(t_{n-1})分布

  • 相关阅读:
    微信客服系统开发SDK使用教程-给好友发消息任务
    微信客服系统开发SDK使用教程-客户端选择微信号登陆/登出通知
    微信客服系统开发SDK使用教程-客户端退出通知
    php优秀框架codeigniter学习系列——CI_Security类学习
    php优秀框架codeigniter学习系列——CI_Output类的学习
    php优秀框架codeigniter学习系列——CI_Router类学习
    My IELTS result has come out 我的雅思成绩出来了
    Travel notes in Vietnam
    asp.net学习
    makefile简单学习
  • 原文地址:https://www.cnblogs.com/evian-jeff/p/11389924.html
Copyright © 2011-2022 走看看