zoukankan      html  css  js  c++  java
  • 数据分析的统计基础2

    随机变量

    离散型随机变量

    离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量,通常用(X)表示随机变量,用(x_i)表示随机变量可能的取值。

    一般地,样本空间上的概率测度决定了(X)各种取值的概率;如果随机变量的取值用(x_1,x_2,...)表示,那么存在满足(p(x_i)=P(X=x_i))(sum limits_{i}^{}p(x_i)=1)的函数(p),我们称这个函数为随机变量(X)的概率质量函数(probability mass function,pmf)或者频率函数(frequency function)。

    除了频率函数,有时候利用随机变量的累计分布函数(cumulative distribution function,cdf)比较方便,它定义为:

    [F(x) = P(X leq x) , x in (-infty,+infty) ]

    • 累计分布函数是非降的,并且满足$$lim limits_{x o -infty}F(x) = 0$$ 和 (lim limits_{x o infty}F(x) = 1)

    伯努利分布(Bernoulli distribution)

    背景:一次试验成功与否 参数:(p)

    伯努利随机变量只有两个取值:0和1,各自的取值概率分别为(1-p)(p)。因此频率函数为:

    [P(X=x) = p(x) = left{egin{matrix} p, x = 1\1-p , x = 0 \ 0,elseend{matrix} ight. ]

    另一种有用的表达式:(p(x) = left{ egin{matrix} p^x(1-p)^{1-x} x=0 或 1\ 0,else end{matrix} ight.)

    如果(A)是一个事件,那么示性随机变量(indicator random variable)(I_A)在A发生时取1,A不发生时取0。

    二项分布(Binomial distribution)

    背景:(n)次独立试验,每次试验“成功”的概率是(p),失败的概率是(1-p)(n)次试验中成功的次数(X)是参数(n)(p)的二项随机变量 参数:(n)(p)

    (X=k)的概率p(k)可以通过下面的方式计算:利用乘法原理,任何(k)次成功的特定试验序列发生的概率都是(p^k(1-p)^{n-k})。因为(n)次试验有(k)次成功的排列方式有(inom{n}{k})种。因此,(P(X=k))是任意特定试验序列的概率乘以这些试验序列的个数:

    [p(k) = inom{n}{k}p^k(1-p)^{n-k} ]

    几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)

    背景:几何分布也是由独立的伯努利试验构造而成的,但是由无穷试验序列得到。每次试验成功的概率为(p)(X)表示直到第一次成功所做的试验次数。参数:(k)(p)

    (X=k)时必然有前面的(k-1)次试验失败,第(k)试验成功。利用试验的独立性,上述事件发生的概率:

    [p(k) = P(X = k) = (1-p)^{k-1}p,k=1,2,3... ]

    背景:负二项分布是几何分布的一般化,假设单次试验成功的概率是(p​),连续独立地试验直到成功(r​)(X​)表示试验次数 参数(n​)(r​)(p​)

    我们按照如下方式计算(P(X=k)):由独立性假设,任意特定试验发生的概率是(p^r(1-p)^{k-r})。最后一次试验结果是成功的,剩余的(r-1)次成功出现在剩余的(k-1)试验中,因此,

    [P(X=k) = inom{k-1}{r-1}p^r(1-p)^{k-r} ]

    超几何分布(Hypergeometric distribution)

    背景:盒中(n)个球,其中(r)个黑球,(n-r)个白球。从盒子中无重复的抽取(m)个球,抽到黑球的个数。(X)是参数为(r、n)(m)的超几何随机变量。

    [P(X=k)= frac{ inom{r}{k} inom{n-r}{m-k}}{inom{n}{m}} ]

    泊松分布(Poisson distribution)

    参数为(lambda(lambda > 0))的泊松频率函数(Poisson frequency function)是

    [P(X=k) = frac{lambda^ke^{-lambda}}{k!},k=0,1,2,... ]

    因为(e^lambda = sum limits_{k=0}^{infty}(lambda^k/k!)),所以频率之和为1。

    当试验次数(n)趋于(infty),试验成功概率(p)趋于(0),且满足(np=lambda)时,泊松分布可由二项分布的极限得到。

    证明:二项频率函数是:

    [P(X=k)=p(k)=inom{n}{k}p^k(1-p)^{n-k}=frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} ]

    (np=lambda),上式转换为:

    [egin{align} p(k)&=frac{n!}{(n-k)!k!}left(frac{lambda}{n} ight)^kleft(1-frac{lambda}{n} ight)^{n-k}\ &= frac{lambda^k}{k!}frac{n!}{(n-k)!k!}frac{1}{n^k}left( 1-frac{lambda}{n} ight)^nleft( 1-frac{lambda}{n} ight)^{-k}\ end{align} ]

    (n o infty)时,

    [frac{lambda}{n} o 0 ,frac{n!}{(n-k)!n^k} o 1,left(1- frac{lambda}{n} ight)^n o e^{-lambda},left(1-frac{lambda}{n} ight)^{-k} o 1 ]

    因此我们有

    [p(k) o frac{lambda^k e^{-lambda}}{k!} ]

    连续性随机变量

    对于连续随机变量,频率函数的角色被密度函数(density function)(f(x))取代,它具有如下性质:(f(x) geq 0)(f)分段连续且(int_{-infty}^{infty}f(x)dx = 1)。如果(X)是具有密度函数(f)的随机变量,那么对于任意的(a<b)(X)落在区间((a,b))上概率是密度函数从(a)(b)的下方面积:

    [P(a<X<b) = int_{a}^{b}f(x)dx ]

    连续随机变量(X)的累积分布函数的定义方式与离散型一样:

    [egin{align} F(x) &= P(X leq x) \ &= int_{-infty}^{x}f(u)du end{align} ]

    cdf可以用来估计(X)落入一个区间内的概率:

    [P(a leq X leq b ) = int_{a}^{b}f(x)dx = F(b) - F(a) ]

    假设(F)是连续随机变量的cdf,在某区间(I)上是严格增的,因此在(I)的左端点处(F=0),右端点处(F = 1)(I)可能是无界的。在这个假设下,逆函数(F^{-1})存在,如果(y = F(x)),那么(x=F^{-1}(y))。分布(F)的第(p)分位数(quantile)定义为满足(F(x_p) = p)(P(X leq x_p) = p)(x_p)值。特别地,当(p=frac{1}{2}),这相对应于(F)的中位数(median),(p=frac{1}{4})(p=frac{3}{4})相对应于(F)的下、上四分之一分位数。

    均匀分布

    区间([0,1])上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果,概率模型应该满足落入任何长度(h)的子区间内的概率是(h)。下面的密度函数满足该要求:

    [f(x) =left{ egin{matrix} 1, 0 leq x leq 1\ 0,x < 0 或 x > 1 end{matrix} ight. ]

    这个密度函数称为([0,1])上的均匀密度(uniform density)。一般区间([a,b])上的均匀密度是:

    [f(x) =left{ egin{matrix} frac{1}{b-a}, a leq x leq b\ 0,x < a 或 x > b end{matrix} ight. ]

    这种定义的一个结果是连续随机变量(X)取特定值的概率为(0):

    [P(X=c)=int_{c}^{c}f(x)dx = 0 ]

    对于连续随机变量,那么(P(a<X<b) = P(a leq X < b) = P(a < X leq b))。注意此事对离散随机变量,上式可能不对。

    指数分布

    指数密度函数是((lambda)越大,密度下降地越快)

    [f(x) =left{ egin{matrix} lambda e^{- lambda x},x geq 0 \ 0,x < 0 end{matrix} ight. ]

    指数分布的累积分布函数为:

    [F(x) = int_{-infty}^{x}f(u)du = left{ egin{matrix} 1-e^{-lambda x} , x geq 0 \ 0, x < 0 end{matrix} ight. ]

    指数分布常用来刻画生命周期或者等待时间,这是一般用(t)代替(x)。假设我们考虑用指数随机变量来刻画电子元件的寿命,且元件已经生存时长(s),我们计算它至少能再存活(t)个时间单位的概率,也即计算(P(T > t+s | T > s))

    [egin{align*} P(T>t+s|T>s) &= frac{P(T>t+s cap T>s)}{P(T>s)} \ &= frac{P(T>t+s)}{P(T>s)} \ &= frac{1 - F(t+s)}{1-F(s)} \ &= frac{e^{-lambda(t+s)}}{e^{-lambda s}} \ &= e^{-lambda t} end{align*} ]

    我们看到元件至少能再存活(t​)个时间单位的概率不依赖于(s​)。因此,指数分布被认为是无记忆性(memoryless)。

    伽马分布

    伽马密度函数依赖于两个参数----(alpha)(lambda)

    [g(t) =left{ egin{matrix} frac {lambda ^ alpha}{Gamma(alpha)} t^{alpha-1}e^{-lambda t},t geq 0 \ 0, t leq 0 end{matrix} ight. ]

    因此,密度函数在(alpha > 0)(lambda > 0)上定义完好,全积分等于1。伽马函数(Gamma(x))定义为:

    [Gamma(x) = int_{0}^{infty}u^{x-1}e^{-u}du,x > 0 ]

    注意,如果(alpha = 1),伽马密度等价于指数密度,参数(alpha)称为形状参数(shape parameter),参数称为尺度参数(scale parameter)。变动(alpha)改变密度的形状,而变动(lambda)仅改变测量单位(比方说,从秒到分钟),不影响密度的形状。

    正态分布

    正态分布在概率论和数理统计中扮演者重要的角色,Carl Friedrich Gauss在测量误差模型时提出这个分布,因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说,中心极限定理是说如果一个随机变量是许多独立随机变量之和,那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数,即(mu)(sigma),其中(mu in (-infty,infty))(sigma > 0)

    [f(x) = frac{1}{sigma sqrt{2pi}} e^{-(x-u)^2/2sigma ^ 2}, -infty leq x leq infty ]

    参数(mu)(sigma)分别称为正态密度的均值(mean)和标准差(standard deviation),简记为$X (服从)N(mu,sigma^2)$

    由密度函数的形状可以看出密度关于(mu)对称,(f(mu-x) = f(mu + x)),它有一个最大值,且此处下降的速率依赖于(sigma),正态密度有时称为钟形曲线,(mu = 0)(sigma = 1)的特殊形式称为标准正态密度。它的cdf记为$Phi (,密度为)phi $

    贝塔分布

    贝塔密度用来刻画([0,1])区间上的随机变量:

    [f(u) = frac{Gamma(a+b)}{Gamma(a)Gamma(b)}u^{a-1}(1-u)^{b-1} ,0 leq u leq 1 ]

    随机变量的函数

    背景:假设随机变量(X)有密度函数(f(x)),对于某一给定的函数(g),我们经常需要计算(Y=g(X))的密度函数。通常,将(X)的密度和cdf记为(f_X)(F_X);(Y)的密度和cdf记为(f_Y)(F_Y)

    假设(X)~(N(mu,sigma^2))(Y=aX+b),其中$a > 0 (。)Y$的累积分布函数是:

    [F_Y(y) = P(Y leq y) = P(aX+b leq y) = P(X leq frac{y-b}{a}) = F_X(frac{y-b}{a}) ]

    因此,

    [f_Y(y) = frac{d}{dy}F_x(frac{y-b}{a}) = frac{1}{a}f_X(frac{y-b}{a}) ]

    因为(f_x)是参数为(mu)(sigma)的正态密度函数,替代上式后,我们得到:

    [f_Y(y) =frac{1}{asigmasqrt{2pi}} exp {left [ -frac{1}{2}left( frac{y-b-amu}{asigma} ight) ^ 2 ight ]} ]

    由此,我们看到(Y)服从参数为(amu+b)(asigma)的正态分布。

    其实,a<0时,上面结论依然成立。

    命题:如果(X)~(N(mu,sigma^2))(Y=aX+b),那么(Y) ~(N(amu+b,a^2sigma^2))

    此结论对于使用正态分布计算概率十分有用。假设(X)~(N(mu,sigma^2)),对某些数值(x_0)(x_1),我们希望得到(P(x_0 < X < x_1)),考虑随机变量:

    [Z = frac{X - mu}{sigma} = frac{1}{sigma}X-frac{mu}{sigma} ]

    那么(Z)~(N(0,1)),即(Z)服从标准正态分布,因此:

    [F_X(x) = P(X leq x) = P(frac{X-mu}{sigma} leq frac{x-mu}{sigma})=P(Z leq frac{x-mu}{sigma}) = Phi(frac{x-mu}{sigma}) ]

    因此,我们有

    [P(x_0 leq X leq x_1) = F_X(x_1)-F_X(x_0)=Phi(frac{x_1-mu}{sigma})-Phi(frac{x_0-mu}{sigma}) ]

    因此,我们有以下结论:

    (X)~(N(mu,sigma^2)),则(X)偏离(mu)的值小于(sigma 、 2sigma、3sigma)的概率分别为:

    • (P(-sigma < X - mu < sigma) = P(-1 < frac{X-mu}{sigma} < 1) = P(-1 < Z < 1) = Phi(1) - Phi(-1) =0.68)
    • (P(-2sigma < X - mu < 2sigma) = P(-2 < frac{X-mu}{sigma} < 2) = P(-2 < Z < 2) = Phi(2) - Phi(-2) =0.95)
    • (P(-3sigma < X - mu < 3sigma) = P(-3 < frac{X-mu}{sigma} < 3) = P(-3 < Z < 3) = Phi(3) - Phi(-3) =0.997)

    计算(X=Z^2)的密度,其中(Z)~(N(0,1))

    [F_X(x) = P(X leq x)=P(-sqrt{x} leq Z leq sqrt{x})=Phi(sqrt{x})-Phi(-sqrt{x}) ]

    我们通过cdf的微分找到(X)的密度,因为(Phi'(x) = phi(x)),利用链式法则求解得到:

    [f_X(x) = frac{1}{2}x^{-1/2}phi(sqrt{x}) + 1/2x^{-1/2}phi(sqrt{x})=x^{-1/2}phi(x) ]

    最后一步利用了(phi)的对称性。由最后的表达式我们得到:

    [f_X(x) = frac{x^{-1/2}}{sqrt{2pi}}e^{-x/2},x geq 0 ]

    利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式(k_1h(x))(k_2h(x)),由于他们的积分都是(1),所以(k_1=k_2)。现在,与(alpha = lambda = 1/2)的伽马密度相比,我们可以得到这里的(f(x))是伽马密度,(Gamma(frac{1}{2})=sqrt{pi})。这个密度又称为自由度(degree of freedom)为(1)卡方密度(chi-square density)

  • 相关阅读:
    shell学习(15)- eval及shell No such file or directory解决办法
    30张图带你彻底理解红黑树
    linux中$@,$*,$0,$$,$?参数的含义
    QPS,TPS,吞吐量,响应时间详解及关系
    shell学习(14)- who
    SpringBoot 入门
    创建 Java 项目
    部分 GIT 命令
    Spark Executor Task 的执行和数量
    Ubuntu 18 单机安装 HDP 3
  • 原文地址:https://www.cnblogs.com/evian-jeff/p/11386384.html
Copyright © 2011-2022 走看看