zoukankan      html  css  js  c++  java
  • 学生t分布

    学生t-分布(Student's t-distribution),可简称为t分布。

    关于分布的早期理论工作,是英国统计学家威廉西利戈塞特(WillamSealy Gosset)在1900年进行的。

    应用在估计呈正态分布的母群体之平均数。 t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定,因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。

    在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时,因为误差无法压低,此时可以用变异数分析(ANOVA)代替学生t检定。
     
    假设X是呈正态分布的独立的随机变量(随机变量的期望值\mu 方差\sigma )。 令:
    \overline {{X_n}}  = ({X_1} + {X_2} + ... + {X_n})/n
     
    为样本均值。
    {S_n} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {({X_i}}  - \overline {{X_n}} {)^2}
     
    为样本方差的无偏估计量. V可以被定义为
    X = (n - 1)\frac{{S_n^2}}{{{\sigma ^2}}}
    其中有一个自由度为n − 1的卡方分布(由 Cochran定理得知),Z可以被定义为
    U = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{\sigma }
     
     
    Z呈正态分布并且均值和方差分别为0和1。它的样本方差 \overline {{X_n}} 也是一个服从均值 μ和方差σ2/n的正态分布, 其中Z和V是相互独立的
    T \equiv \frac{U}{{\sqrt {X/n} }} = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{{{S_n}}}
    T和Z不同的是实际的标准差σ被随机变量Sn取代,我们注意到未知总体方差 σ2在T中没有出现,因为分子和分母都有一个σ,所以他们抵消了。
     
     
    联合密度函数
    因为Z,V是相互独立的,所以它们的联合密度函数为各自的密度函数的乘积。
    (1)  Z
    U\~\frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{u^2}}}{2}}}                (-∞ < u < +∞)
     
    (2) V
    X\~\frac{1}{{\Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}    (0 ≤ < +∞)
     
    我们记 p(ux)为它们的联合概率密度函数,然后有
    p(u,x) = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}   (1)
     
    t分布的分布函数
    令F(t)为T的累积分布函数,根据分布函数的定义,F(t)是T小于等于t的概率:
     F(t) = P\{ \frac{U}{{\sqrt {\frac{X}{n}} }} \le t\} = P\{ U \le \sqrt {\frac{X}{n}} .t\}
     
     
    根据多变量分布函数的定义,这个概率等同于变量U和X在限制区域上的联合概率密度函数p(u, x)的双重积分,且积分区域为限制条件 u ≤ (x/n1/2t下的区域,这个区域就是下图蓝色曲线以下的区域
     


    F(t) = \int\limits_0^\infty {\int\limits_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {p(u,x)dudx} }
     
    把(1)代入上式有
     
    F(t) =   \int_0^\infty {\int_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {\frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
     
    T的密度函数
    这个复杂的积分无法写成闭式的形式,幸运的是我们不需要算它的积分,我们只需要它对t的导数。那么先让我们看看F(t)的结构
    F(t)能够被写成如下形式:
    g(t) = \sqrt {\frac{x}{n}.t}
     
    F(t) = K.\int_0^\infty {[\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
     
    现在对F微分,我们便得到:
    F'(t) = K.\int_0^\infty {[\frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
     
    令 
    A = \frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du}
    这个积分是关于t的函数,通过链式法则:
    如果h(g(t))
    \frac{{dh}}{{dt}} = \frac{{dh}}{{dg}}.\frac{{dg}}{{dt}}
     
    A = h(g(t)).\frac{{dg}}{{dt}}
     
    第一项为
    h(u) = \frac{{{e^{ - \frac{{{u^2}}}{2}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
     
    我们将g(t)代入u得:
    h(u) = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
    第二项是
    \frac{{dg(t)}}{{dt}} = \sqrt {\frac{x}{n}}
     
    最终得到:
    A = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{(n + 1)/2}}}}.\sqrt {\frac{x}{n}}
     
    将这几项相结合便得到:
    {f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}\int_0^\infty {\frac{{{x^{(n + 1)/2 - 1}}{e^{ - \frac{x}{2}(1 + \frac{t}{n})}}}}{{{2^{(n + 1)/2}}}}dx}
    再令y = (1 + t²/n)x
    dx = \frac{1}{{1 + \frac{{{t^2}}}{n}}}dy
     
    然后我们得到
    {f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[\frac{1}{{{{(1 + \frac{{{t^2}}}{n})}^{(n + 1)/2}}}}]\int_0^\infty {\frac{{{y^{(n + 1)/2 - 1}}{e^{ - \frac{y}{2}}}}}{{{2^{(n + 1)/2}}}}dy}
     
    积分项正好是Gamma函数\Gamma (\frac{{n + 1}}{2})
     
    合并入整个式子得到t的分布函数,并且自由度是n:
    {f_n}(t) = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
    下面是几种特殊的情况:
    n = 1, 柯西分布
     
    f(t) = \frac{1}{{\pi (1 + {t^2})}}
     
    n=2
    f(t) = \frac{1}{{{{\left( {2 + {t^2}} \right)}^{\frac{3}{2}}}}}
    n=3
    f(t) = \frac{{6\sqrt 3 }}{{\pi {{\left( {3 + {t^2}} \right)}^2}}}
    关于n = ∞,下面要进行详细的解释:
    函数项
    [{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
    当n趋向于无穷时,{{t^2}/n}为无穷小项,而对于log(1 + x)的taylor展开有:
    log\left( {1{\rm{ }} + x} \right) = x - \frac{{{x^2}}}{2} + \frac{{{x^3}}}{3} - ... = \sum\limits_{i = 1}^\infty {{{( - 1)}^{i - 1}}\frac{{{x^i}}}{i}}
     
    log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}]= \frac{{n + 1}}{2}\log (1{\rm{ }} + \frac{{{x^2}}}{n}) = \frac{{n + 1}}{2}.(\frac{{{x^2}}}{n} - \frac{{{x^4}}}{{2{n^2}}} - ...)
     
    {\lim }\limits_{n \to \infty } log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}] = {\lim }\limits_{n \to \infty } \frac{{(n + 1){x^2}}}{{2n}} = \frac{{{x^2}}}{2}
     
    所以
    {\lim }\limits_{n \to \infty } \frac{1}{{{{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)}^{\frac{{n + 1}}{2}}}}} = {e^{ - \frac{{{x^2}}}{2}}}
     
    现在再回头看看t分布的系数。
    情况1: n为偶数,设n = 2p;
    {C_{2p}} = \frac{1}{{\sqrt {2p} }}.\frac{{(2p)!p}}{{({2^{2p}}){{(p!)}^2}}}
     
    根据Stirling公式: n! ~ n n e- n(2πn1/2 
    (2p )! ~ (2p)2pe -2p(2π.2p1/2
    (p !)² ~ (p p )2(e-p2.2π p
    将此代入到C2 p
    {\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
     
    情况2: n为奇数,设n = 2p+1;
    {C_{2p}} = \frac{1}{{\sqrt {2p + 1} }}.\frac{{({2^{2p}}){{(p!)}^2}}}{{(2p)!\pi }}
     
    (2p )! ~ (2p2pe - 2p (2π.2p1/2
    (p !)² ~ (p p )2e-p2.2π p
     
    将此代入到C2 p
    {\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
     
    所以,当n趋向于无穷时有:
    {\lim }\limits_{n \to \infty } f(x) = \frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{x^2}}}{2}}}
    方差的求解:
    方法一:直接方法
    E[{X^2}] = \int\limits_{ - \infty }^\infty {{x^2}p(x)dx = {C_n}\int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} } dx
    其中
    {C_n} = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}
     
    {I_n} = \int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
     
    {I_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx - \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx = {J_n} - {K_n}
    其中
     
    {J_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx{K_n} = \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
     
     
    首先计算{J_n}
    令 x²/ n = tan²θ
    {J_n} = n\sqrt n \int\limits_0^{\pi /2} {\frac{1}{{{{(1 + {{\tan }^2})}^{(n - 1)/2}}}}} .\frac{1}{{\cos \theta }}d\theta
    = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {\frac{{{{({{\cos }^2}\theta )}^{(n - 1)/2}}}}{{{{\cos }^2}\theta }}} d\theta = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 3}}(\theta )} d\theta
     
    同样算得:
    {K_n} = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 1}}(\theta )} d\theta
    这种类型的积分叫做Wallis积分。
    现在让我们计算它的通用表达方式:

    {W_n} = \int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
     
    = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} {\cos ^2}(\theta )d\theta = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} [1 - {\sin ^2}(\theta )]d\theta
    = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} d\theta - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
    = {W_{n - 2}} - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
     
    再令
    u' = cos n - 2 (θ)sin(θ)
    v = sin( θ)
    利用下式:
    \int\limits_0^{\pi /2} {u'v} d\theta = [uv]_0^{\pi /2} - \int\limits_0^{\pi /2} {uv'} d\theta 有


    \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
    = [ - \frac{{{{\cos }^{n - 1}}(\theta )sin(\theta )}}{{n - 1}}]_0^{\pi /2} + \frac{1}{{n - 1}}\int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
    = 0 + {W_n}/(n - 1)
     
    因此可以得到Wn = Wn - 2  +  Wn / (n - 1)
    Wallis积分是一个递归表达式,n为偶数或者奇数时分别取不同的结果
    当n为偶数时
    {W_{2p}} = \frac{{(2p)!}}{{{2^{2p}}{{(p!)}^2}}}.\frac{\pi }{2}
    当n为奇数时
    {W_{2p - 1}} = \frac{{{2^{2p}}{{(p!)}^2}}}{{2p(2p!)}}
     
    由于Var( Tn ) = C n I n, 分别将n和 n代入式中,最终得到的方差为
    Var({T_n}) = \frac{n}{{n - 2}}
    方法二: LOTUS
    根据定义
    E[Z] = \int {\int {f(u,x)p(u,x)dudx} }
     
    Var({T_n}) = E[T_n^2]
    = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {T_n^2{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
    = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{{(\frac{u}{{\sqrt {\frac{x}{n}} }})}^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
     
    = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{u^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{ - 1}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
    = \frac{1}{{\Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\frac{1}{{\sqrt {2\pi } }}{u^2}{e^{ - \frac{{{u^2}}}{2}}}du\int_0^\infty {{x^{\frac{{n - 2}}{2} - 1}}{e^{ - \frac{x}{2}}}dx} }
     
    x = 2y  然后得到dx = 2dy
    \int_{ - \infty }^\infty {{{(\frac{y}{2})}^{\frac{{n - 2}}{2} - 1}}} {e^{ - y}}\frac{1}{2}dy = \frac{1}{{{2^{(n - 2)/2}}}}\int_0^\infty {{y^{\frac{{n - 2}}{2} - 1}}{e^{ - y}}dy}= \frac{1}{{{2^{(n - 2)/2}}}}\Gamma (\frac{n}{2} - 1)
     
     
    \Gamma (\frac{n}{2} - 1) = \frac{1}{{n/2 - 1}}\Gamma (\frac{n}{2}) = \frac{2}{{n - 2}}\Gamma (\frac{n}{2})
     
    Var({T_n}) = \frac{n}{{n - 2}}
  • 相关阅读:
    Maven入门:使用Nexus搭建Maven私服及上传下载jar包
    idea 破解转(肉测好用,测试2018.4.16)
    使用spring-boot-admin对spring-boot服务进行监控(转自牛逼的人物)
    eureka集群高可用配置,亲测成功配置(转)
    Apollo-open-capacity-platform 微服务能力开发平台 (转)
    导入数据到数据库表,报错[Err] [Row1] [Imp] 1153
    .mmap文件如何打开
    web端自动化——webdriver驱动
    web端自动化——Remote应用
    svn服务器端—管理员分配权限
  • 原文地址:https://www.cnblogs.com/frischzenger/p/3003372.html
Copyright © 2011-2022 走看看