学生t分布 - 走看看

zoukankan html css js c++ java

学生t分布

学生t-分布（Student's t-distribution），可简称为t分布。

关于t 分布的早期理论工作，是英国统计学家威廉•西利•戈塞特（WillamSealy Gosset）在1900年进行的。

应用在估计呈正态分布的母群体之平均数。 t分布是小样本分布，t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R，由样本平均数推断总体平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定，因为Z检定以母体标准差已知为前提。虽然在样本数量大（超过30个）时，可以应用Z检定来求得近似值，但Z检定用在小样本会产生很大的误差，因此必须改用学生t检定以求准确。

在母体标准差未知的情况下，不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时，因为误差无法压低，此时可以用变异数分析（ANOVA）代替学生t检定。

假设X是呈正态分布的独立的随机变量（随机变量的期望值是 $\mu$ ，方差是 $\sigma$ ）。令：

$\overline {{X_n}} = ({X_1} + {X_2} + ... + {X_n})/n$

为样本均值。

${S_n} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {({X_i}} - \overline {{X_n}} {)^2}$

为样本方差的无偏估计量. V可以被定义为

$X = (n - 1)\frac{{S_n^2}}{{{\sigma ^2}}}$

其中有一个自由度为n − 1的卡方分布（由 Cochran定理得知），Z可以被定义为

$U = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{\sigma }$

Z呈正态分布并且均值和方差分别为0和1。它的样本方差 $\overline {{X_n}}$ 也是一个服从均值 μ和方差σ²/n的正态分布， 其中Z和V是相互独立的

$T \equiv \frac{U}{{\sqrt {X/n} }} = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{{{S_n}}}$

T和Z不同的是实际的标准差σ被随机变量S_n取代，我们注意到未知总体方差 σ²在T中没有出现，因为分子和分母都有一个σ，所以他们抵消了。

联合密度函数

因为Z,V是相互独立的，所以它们的联合密度函数为各自的密度函数的乘积。

(1) Z

$U\~\frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{u^2}}}{2}}}$ (-∞ < u < +∞)

(2) V

$X\~\frac{1}{{\Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}$ (0 ≤ v < +∞)

我们记 p(u, x)为它们的联合概率密度函数，然后有

$p(u,x) = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}$ （1）

t分布的分布函数

令F(t)为T的累积分布函数，根据分布函数的定义，F(t)是T小于等于t的概率:

$F(t) = P\{ \frac{U}{{\sqrt {\frac{X}{n}} }} \le t\} = P\{ U \le \sqrt {\frac{X}{n}} .t\}$

根据多变量分布函数的定义，这个概率等同于变量U和X在限制区域上的联合概率密度函数p(u, x)的双重积分，且积分区域为限制条件 u ≤ (x/n) ^1/2. t下的区域，这个区域就是下图蓝色曲线以下的区域

$F(t) = \int\limits_0^\infty {\int\limits_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {p(u,x)dudx} }$

把(1)代入上式有

$F(t) =$ $\int_0^\infty {\int_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {\frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }$

T的密度函数

这个复杂的积分无法写成闭式的形式，幸运的是我们不需要算它的积分，我们只需要它对t的导数。那么先让我们看看F(t)的结构

F(t)能够被写成如下形式:

令

$g(t) = \sqrt {\frac{x}{n}.t}$

$F(t) = K.\int_0^\infty {[\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }$

现在对F微分，我们便得到：

$F'(t) = K.\int_0^\infty {[\frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }$

令

$A = \frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du}$

这个积分是关于t的函数，通过链式法则:
如果h(g(t))

$\frac{{dh}}{{dt}} = \frac{{dh}}{{dg}}.\frac{{dg}}{{dt}}$

$A = h(g(t)).\frac{{dg}}{{dt}}$

第一项为

$h(u) = \frac{{{e^{ - \frac{{{u^2}}}{2}}}}}{{{2^{\frac{{n + 1}}{2}}}}}$

我们将g(t)代入u得：

$h(u) = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{\frac{{n + 1}}{2}}}}}$

第二项是

$\frac{{dg(t)}}{{dt}} = \sqrt {\frac{x}{n}}$

最终得到：

$A = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{(n + 1)/2}}}}.\sqrt {\frac{x}{n}}$

将这几项相结合便得到:

${f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}\int_0^\infty {\frac{{{x^{(n + 1)/2 - 1}}{e^{ - \frac{x}{2}(1 + \frac{t}{n})}}}}{{{2^{(n + 1)/2}}}}dx}$

再令y = (1 + t²/n)x

$dx = \frac{1}{{1 + \frac{{{t^2}}}{n}}}dy$

然后我们得到

${f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[\frac{1}{{{{(1 + \frac{{{t^2}}}{n})}^{(n + 1)/2}}}}]\int_0^\infty {\frac{{{y^{(n + 1)/2 - 1}}{e^{ - \frac{y}{2}}}}}{{{2^{(n + 1)/2}}}}dy}$

积分项正好是Gamma函数 $\Gamma (\frac{{n + 1}}{2})$

合并入整个式子得到t的分布函数，并且自由度是n：

${f_n}(t) = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]$

下面是几种特殊的情况:

n = 1, 柯西分布

$f(t) = \frac{1}{{\pi (1 + {t^2})}}$

n=2

$f(t) = \frac{1}{{{{\left( {2 + {t^2}} \right)}^{\frac{3}{2}}}}}$

n=3

$f(t) = \frac{{6\sqrt 3 }}{{\pi {{\left( {3 + {t^2}} \right)}^2}}}$

关于n = ∞，下面要进行详细的解释:

函数项

$[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]$

当n趋向于无穷时， ${{t^2}/n}$ 为无穷小项，而对于log(1 + x)的taylor展开有:

$log\left( {1{\rm{ }} + x} \right) = x - \frac{{{x^2}}}{2} + \frac{{{x^3}}}{3} - ... = \sum\limits_{i = 1}^\infty {{{( - 1)}^{i - 1}}\frac{{{x^i}}}{i}}$

$log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}]$ $= \frac{{n + 1}}{2}\log (1{\rm{ }} + \frac{{{x^2}}}{n}) = \frac{{n + 1}}{2}.(\frac{{{x^2}}}{n} - \frac{{{x^4}}}{{2{n^2}}} - ...)$

${\lim }\limits_{n \to \infty } log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}] = {\lim }\limits_{n \to \infty } \frac{{(n + 1){x^2}}}{{2n}} = \frac{{{x^2}}}{2}$

所以

${\lim }\limits_{n \to \infty } \frac{1}{{{{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)}^{\frac{{n + 1}}{2}}}}} = {e^{ - \frac{{{x^2}}}{2}}}$

现在再回头看看t分布的系数。

情况1: n为偶数，设n = 2p;

${C_{2p}} = \frac{1}{{\sqrt {2p} }}.\frac{{(2p)!p}}{{({2^{2p}}){{(p!)}^2}}}$

根据Stirling公式: n! ~ nⁿ e^{- n}(2πn) ^1/2有

(2p )! ~ (2p)²^pe ^-²^p(2π.2p) ^1/2

(p !)² ~ (p ^p )²(e^-^p) ².2π p

将此代入到C₂ _p有

${\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}$

情况2: n为奇数，设n = 2p+1;

${C_{2p}} = \frac{1}{{\sqrt {2p + 1} }}.\frac{{({2^{2p}}){{(p!)}^2}}}{{(2p)!\pi }}$

(2p )! ~ (2p) ²^pe ^- ²^p (2π.2p) ^1/2

(p !)² ~ (p^p )²( e^-^p) ².2π p

将此代入到C₂ _p有

${\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}$

所以，当n趋向于无穷时有:

${\lim }\limits_{n \to \infty } f(x) = \frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{x^2}}}{2}}}$

方差的求解:

方法一:直接方法

$E[{X^2}] = \int\limits_{ - \infty }^\infty {{x^2}p(x)dx = {C_n}\int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} } dx$

其中

${C_n} = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}$

令

${I_n} = \int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx$

${I_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx - \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx = {J_n} - {K_n}$

其中

${J_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx$ ， ${K_n} = \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx$

首先计算 ${J_n}$ ，

令 x²/ n = tan²θ

${J_n} = n\sqrt n \int\limits_0^{\pi /2} {\frac{1}{{{{(1 + {{\tan }^2})}^{(n - 1)/2}}}}} .\frac{1}{{\cos \theta }}d\theta$

$= {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {\frac{{{{({{\cos }^2}\theta )}^{(n - 1)/2}}}}{{{{\cos }^2}\theta }}} d\theta = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 3}}(\theta )} d\theta$

同样算得:

${K_n} = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 1}}(\theta )} d\theta$

这种类型的积分叫做Wallis积分。

现在让我们计算它的通用表达方式:

${W_n} = \int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta$

$= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} {\cos ^2}(\theta )d\theta = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} [1 - {\sin ^2}(\theta )]d\theta$

$= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} d\theta - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta$

$= {W_{n - 2}} - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta$

再令

u' = cos ⁿ ^{- 2} (θ)sin(θ)

v = sin( θ)

利用下式:

$\int\limits_0^{\pi /2} {u'v} d\theta = [uv]_0^{\pi /2} - \int\limits_0^{\pi /2} {uv'} d\theta$ 有

$\int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta$

$= [ - \frac{{{{\cos }^{n - 1}}(\theta )sin(\theta )}}{{n - 1}}]_0^{\pi /2} + \frac{1}{{n - 1}}\int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta$

$= 0 + {W_n}/(n - 1)$

因此可以得到W_n = W_n _{- 2} + W_n / (n - 1)

Wallis积分是一个递归表达式，n为偶数或者奇数时分别取不同的结果

当n为偶数时

${W_{2p}} = \frac{{(2p)!}}{{{2^{2p}}{{(p!)}^2}}}.\frac{\pi }{2}$

当n为奇数时

${W_{2p - 1}} = \frac{{{2^{2p}}{{(p!)}^2}}}{{2p(2p!)}}$

由于Var( T_n ) = C _n I _{n，分别将}C _n和I _n代入式中，最终得到的方差为

$Var({T_n}) = \frac{n}{{n - 2}}$

方法二: LOTUS

根据定义

$E[Z] = \int {\int {f(u,x)p(u,x)dudx} }$

$Var({T_n}) = E[T_n^2]$

$= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {T_n^2{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }$

$= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}$ $\int_{ - \infty }^\infty {\int_0^\infty {{{(\frac{u}{{\sqrt {\frac{x}{n}} }})}^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }$

$= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{u^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{ - 1}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }$

$= \frac{1}{{\Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\frac{1}{{\sqrt {2\pi } }}{u^2}{e^{ - \frac{{{u^2}}}{2}}}du\int_0^\infty {{x^{\frac{{n - 2}}{2} - 1}}{e^{ - \frac{x}{2}}}dx} }$

设x = 2y 然后得到dx = 2dy

$\int_{ - \infty }^\infty {{{(\frac{y}{2})}^{\frac{{n - 2}}{2} - 1}}} {e^{ - y}}\frac{1}{2}dy = \frac{1}{{{2^{(n - 2)/2}}}}\int_0^\infty {{y^{\frac{{n - 2}}{2} - 1}}{e^{ - y}}dy}$ $= \frac{1}{{{2^{(n - 2)/2}}}}\Gamma (\frac{n}{2} - 1)$

$\Gamma (\frac{n}{2} - 1) = \frac{1}{{n/2 - 1}}\Gamma (\frac{n}{2}) = \frac{2}{{n - 2}}\Gamma (\frac{n}{2})$

$Var({T_n}) = \frac{n}{{n - 2}}$

查看全文

相关阅读:
GDB+QEMU调试内核模块(实践篇)
排序算法的python实现
 Linux命令行相关
 操作系统与网络
 计算机组成原理
 有了自己的技术博客
 if 和 if else
十效率换算成十六进制
 <<左移 >>右移 >>>无符号右移 &与运算 |或运算 ^异或运算 ~反码
 // &与 // |或 // ^异或 // !非 // &&短路 // ||短路

原文地址：https://www.cnblogs.com/frischzenger/p/3003372.html

Copyright © 2011-2022 走看看