zoukankan      html  css  js  c++  java
  • 一维随机变量及其概率分布

    1. 随机变量的概念

    顾名思义,随机变量就是“其值随机会而定”的变量。随机变量的反面是“确定性变量”,即其值遵循某种严格的规律的变量,比如从北京到上海的距离。但是从绝对意义上讲,许多通常视为确定性变量的量,本质上都有随机性,只是由于随机性干扰不大,以至在所要求的精度之内,不妨把经作为确定性变量来处理。

    根据随机变量其可能取的值的全体的性质,可以把随机变量分为2大类,一类是离散型随机变量,比如检验100件产品中的次品个数;一类是连续型随机变量,比如一个灯泡的寿命。但是连续型变量这个概念只是数学上的抽象,因为任何量都有单位,都只能在该单位下量到一定的精度,所以也一定是离散的,比如灯泡的寿命如果只精确到秒,那它的寿命也是可以离散表示的。

    研究随机变量的根本原因是,我们需要研究一些事物身上表现出来的会变动的因子,这些因子的值随机而定,但可能存在某种规律(比如总是取到某些特殊的值),我们需要研究这些规律(比如分布规律),而对这些因子做预测。

    2. 离散型随机变量的分布

    我们研究随机变量,并不是只关心它能取到哪些值,往往也关心的是它取到某些值的频率如何,即取到该值的概率。这个特性,我们称之为分布。

    定义2.1

    设$X$为离散型随机变量,其全部的可能值为${a_1,a_2,dots}$,则

    $$p_i=P(X=a_i), i=1,2,dots$$

    称为$X$的概率函数。且有下面的性质:

    $$p_igeqslant 0,p_1+p_2+dots=1$$

    $X$的概率函数给出了:全部概率1是如何在其可能的值之间分配的,所以也把它称为随机变量$X$的“概率分布”。 因为离散型的随机变量的概率分布通常以一个表的形式给出,所以有时把它称为$X$的分布表。

    $$
    egin{array}{c|ccccc} ext{可能值}&a_1&a_2&dots&a_i&dots \
    hline
    ext{概率}&p_1&p_2&dots&p_i&dots
    end{array}
    $$

    定义2.2

    设$X$为一随机变量,则函数

    $$P(Xle x)=F(x),-infty<x<infty$$

    称为$X$的分布函数。

    对离散型随机变量而言,概率函数与分布函数在下述意义下是等价的。

    $$F(x)=P(Xle x)=sum_{{i:a_ile x}}p_i$$

    由$p_i$求$F(x)$是显然的,而由$F(x)$求$p_i$,只需注意:

    $$F(i)=P(Xle i)=P(Xle i-1)+P(X=i)$$

    对于任何随机变量$X$,其分布函数$F(x)$具有下面的一般性质:

    1)$F(x)$是单降非降的:当$(x_1<x_2)$时,有$F(x_1)le F(x_2)$;

    2)当$x oinfty$时,$F(x) o 1$;当$x o –infty$时,$F(x) o 0$;

    研究分布函数的直接原因是可以根据分布函数求概率,另一个原因我觉得是针对于连续型随机变量,因为它研究取某个值的概率没有意义,所以更多的关心的一个范围,比哪灯光寿命1万小时-1.2万小时的可能性大小,像这样范围内的概率用分布函数更容易求得。

    3. 几个常见的离散型分布

    3.1. 二项分布

    某事件$A$在一次试验中发生的概率为$p$。现在把这个试验独立重复$n$次,以$X$记$A$在这$n$次试验中发生的次数,则$n$可能的取值为$0,1,dots,n$,我们称随机变量$X$服从二项分布,记为:$Xsim B(n,p)$,同时这种试验称为伯努利试验。

    $$p_i=b(i;n,p)=dbinom{n}{i}p^i(1-p)^{n-i},i=0,1,dots,n$$

    $X=k$表示$n$次试验中,事件$A$恰好发生了$k$次,那么一共有$dbinom{n}{k}$种途径,而且每种途径发生的概率都为$p^k(1-p)^{n-k}$(加法公式)。

    在研究连续型随机变量分布后,我们发现二项分布概率分布与高斯分布密度函数曲线一致。

    3.2. 泊松分布

    若随机变量$X$可能的取值为$0,1,2,dots$,且概率分布为

    $$P(X=i)=e^{-lambda}lambda^i/i!$$

    则称$X$服从泊松分布,记为$Xsim P(lambda)$,此处$lambda>0$是一常数。

    Poisson分布是用来描述稀有事件的概率的,比如:一定时间内红绿灯口发生事故的次数和总机接到电话的次数。

    Poisson分布实际上是在$n$很大,$p$很小时,二项分布的一个近似:

    当$p$很小时,$(1-p)sim e^{-p}$[泰勒展开,取前2项],所以$(1-p)^{n-k}sim e^{-p(n-k)}sim e^{-pn}=e^{-lambda}$

    当$n$很大时,$b_{n,k}=frac{n(n-1)dots(n-k+1)}{k!}p^k(1-p)^{n-k}approxfrac{n^kp^k}{k!}(1-p)^{n-k}=frac{lambda ^k}{k!}e^{-lambda}$

    3.3. 超几何分布

    设有N个产品,其中有M个不合格品,若从中不放回地随机抽取$n$个,则其中含有的不合格品的个数$X$服从超几何分布,记为$Xsim h(n,N,M)$,超几何分布的概率分布列为:

    $$P(X=k)=frac{dbinom{M}{k}dbinom{N-M}{n-k}}{dbinom{N}{n}},k=0,1,dots,r$$

    其中$r=min{M,n}$,且$Mle N,nle N,n,N,M均为正整数$

    当$ngg N$时,即抽取个数$n$远小于产品总数N时,每次抽取后体中的不合格率$p=M/N$改变甚微,所以不放回抽样,可以近似地看成回抽样,这里超几何分布可以用二项分布近似。

    $$frac{dbinom{M}{k}dbinom{N-M}{n-k}}{dbinom{N}{n}}congdbinom{n}{k}p^k(1-p)^{n-k},其中p=frac{M}{N}$$

    3.4. 几何分布

    在伯努利试验序列中,记每次试验中事件$A$发生的概率为$p$,如果$X$为事件$A$首次出现时的试验次数,则$X$可能取值为$1,2,dots$,称$X$服从几何分布,记为$Xsim Ge(p)$,其分布列为:

    $$P(X=k)=(1-p)^{k-1}p,k=1,2,dots$$

    几何分布的无记忆性:设$Xsim Ge(p)$,则对任意正整数m与n有

    $$P(X>m+n|X>m)=P(X>n)$$

    上面这个公式表明在一系列的事件中,若前m次实验中事件A没有出现,则接下来的n次试验中A仍未出现的概率只与n有关,似乎忘记了前m次试验结果。

    3.5. 负二项分布

    在伯努利试验序列中,记每次试验中事件A发生的概率为$p$,如果$X$为事件$A$第r次出现时的试验次数,则$X$可能的取值为$r,r+1,dots,r+m,dots$,称$X$服从负二项分布或巴斯卡分布,记为$Xsim Nb(r,p)$,概率分布为:

    $$P(X=k)=dbinom{k-1}{r-1}p^r(1-p)^{k-r},k=r,r+1,dots$$

    4. 连续型随机变量分布

    对于连续型变量的概率分布,不能用像离散型变量那种方法去描述。原因在于,这种变量的取值充满一个区间,无法一一排出。若指定一个值$a$,则变量$X$恰好是$a$一丝不差,事实上不可能,即,对于连续型随机变量$X$而言,在区间内任意一点的概率$P(X=x_i)=0$,但是你要注意虽然概率为0,但是并不是说事件$X=x_i$是不可能事件。

    刻画连续型随机变量的概率分布的一个方法是利用概率分布函数,但是在理论和实用上更方便因则更常用的方法,是使用所谓“概率密度函数”或简称密度函数。

    定义4.1

    设连续性随机变量X有概率分布函数$F(x)$,则$F(x)$的层数$f(x)=F’(x)$,称为X的概率密度函数。

    连续型随机变量$X$的密度函数$f(x)$都具有以下三条基本性质:

    1)$f(x)ge0$

    2)$int_{-infty}^{infty}f(x)dx=1$

    3)对任何常数$a<b$有$P(ale Xle b)=F(b)-F(a)=int_{a}^{b}(x)dx$

    4.1. 正态分布

    由中心极限定理可知:

    一个变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一定是正态变量。因此很多随机变量可以用正态分布描述或近似描述,譬如测量误差、产品重量、人的身高、年降雨量等。

    若随机变量$X$的密度函数为

    $p(x)=frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^2}{2sigma^2}},-infty<x<+infty$

    称$X$服从正态分布或高斯分布。

    image

    当$mu=1,sigma^2=1$时,上面的概率密度函数变为

    $$f(x)=e^{-x^2/2}/sqrt{2pi}$$

    它是正态分布$N(0,1)$的密度函数。同时被称为标准正态分布,其密度函数与分布函数通常分别被记为$varphi(x)$和$Phi(x)$。标准正态分布很重要,因为任意的正态分布$N(mu,sigma^2)$的计算很容易转化为标准正态分布$N(0,1)$。

    若$Xsim N(mu,sigma^2)$,则$Y=(X-mu)/sigmasim N(0,1)$

    4.2. 均匀分布

    若随机变量$X$的密度函数为

    $$p(x)=egin{cases}frac{1}{b-a},&a<x<b; \ 0,&其他。end{cases}$$

    则称$X$服从区间$(a,b)$上的均匀分布,记作$Xsim U(a,b)$

    4.3. 指数分布

    若随机变量$X$的密度函数为

    $$p(x)=egin{cases}lambda e^{-lambda x},&xge0; \ 0 , & x<0。end{cases}$$

    则称$X$服从指数分布,记作$Xsim Exp(lambda)$

    下图显示了指数分布当$lambda=1$(虚线)和$lambda=2$(实线)时的曲线图。$f(x)$在$x=0$处不连续。

    image

    因为指数分布随机变量只可能取非负实数,所以指数分布被用作各种“寿命”分布,譬如电子元件的寿命,动物的寿命等。

    $$P(xle Xle x+h)|X>x)/h = lambda, h o 0$$

    上式表明,如果元件在$x$时尚表现正常,则的$X>x$时间内失效率为一个常数$lambda$,也就是说元件在任意时刻突然失效的概率跟它使用了多久没有关系,只与失效率$lambda$有关。根据后面期望计算得到$lambda^-1$就是平均寿命。

    指数分布描述的是一种无老化的寿命分布,在实际中是不可能的,因而只是一种近似。对一种元器件在使用初期老化现象很小,所以在这个阶段指数分布描述了其寿命分布情况。而人在50或60岁之前,生理老化而死亡的因素是次要的。排除那些意外情况,人的寿命在这个阶段也是接近指数分布的。

    4.4. 威布尔分布

    指数分布在寿命问题上忽略了老化问题,如果我们需要考虑老化问题,则显然失效率真应该随时间而上升,不能为常数,比如取为一个$x$的增函数:$lambda x^m$,那假若分布函数为$F(x)$,则有$F’(x)/[1-F(x)]=lambda x^m$,结合$F(0)=0$,得出:

    $$F(x)=1-e^{-(lambda/m+1)x^{m+1}}$$

    取$alpha=m+1(alpha>1)$,并把$lambda/(m+1)$记为$lambda$,得到:

    $$F(x)=1-e^{-lambda x^{alpha}},x>0$$

    概率密度函数为:

    $$f(x)=egin{cases}lambdaalpha x^{alpha-1}e^{-lambda x^{alpha}},&x>0; \ 0 , & xle 0。end{cases}$$

    实际上指数分布是威布尔分布当$alpha=1$时的特例。

  • 相关阅读:
    linq
    存储过程动态显示top条数
    js正则表达式
    WebClient异步下载文件
    C++ socket编程基础(ZT)
    Oracle数据导入导出imp/exp命令 10g以上expdp/impdp命令(转载)
    C#获取各种格式的系统时间
    C++中对sprintf()函数的说明(转)
    史上最全前端面试题(含答案)B篇
    常用正则表达式
  • 原文地址:https://www.cnblogs.com/ronny/p/3346568.html
Copyright © 2011-2022 走看看