zoukankan      html  css  js  c++  java
  • 概率论基础(二)随机变量

    本部分主要介绍常见的随机变量及其关系。主要内容有:

    • 随机变量的概念
    • 常见离散随机变量
    • 常见连续随机变量
    • 随机变量函数的分布

    在上一节从经验直观出发,引入随机事件及其概率的概念之后,为进一步研究随机现象,我们需要引入随机变量的概念。

    补充了随机变量函数的分布这一部分内容

    什么是随机变量

    顾名思义,随机变量就是其值随机会而定的变量,正如随机事件是其发生与否随机会而定的事件。

    机会表现在实验结果,一个随机试验有许多可能的结果,出现哪一个要看机会,即有一定的概率。到底是哪一个,要等掷骰子以后才知道。因此,又可以说,随机变量就是实验结果的函数。关键在于实验前后之分:前,我们不能预制其取值,“随机”;试验后,取值就确定了。

    随机变量的反面是“确定性变量”,其取值遵循某种严格的规律的变量。

    随机事件这个概念实际上是包含在随机变量这个更广的概念之内。也可以说:随机事件是从静态的观点来研究随机现象,而随机变量则是一种动态的观点。一如数学分析中的常量和变量的区分那样,变量概念是高等数学有别于初等数学的基础概念。同样,概率论能从一些孤立事件的概率发展为一个更高的理论体系,基础就是随机变量。

    从中可以看到随机变量与随机事件的联系及其意义,以下给出随机变量形式化的定义:

    A random variable is a measurable function (X: Omega ightarrow E) from a set of possible outcomes (Omega) to a measurable space (E). The technical axiomatic definition requires (Omega) to be a sample space of a probability triple (see the measure-theoretic definition).
    The probability that (X) takes on a value in a measurable set ({displaystyle Ssubseteq E}) is written as
    ({displaystyle operatorname {P} (Xin S)=operatorname {P} ({omega in Omega mid X(omega )in S})}),
    where ${displaystyle operatorname {P} } $ is the _probability measure_on ({displaystyle (Omega ,{mathcal {F}})}).

    从中可以看到随机变量与随机事件的联系及其意义。简言之,随机变量是定义在样本空间上(Omega) 样本点的实值函数 (X=X(omega)),是随机事件的数量表示

    考虑到随机变量概念的重要性,对其此概念的介绍参见 概率论基础:补充(1)概率的公理化定义与随机变量的概念

    下面说明一些符号:如定义所示,随机变量其实是一个定义在样本空间的一个函数 (X(omega)) ,而我们平时多简记为 (X),但要注意其取值始终是和一个事件联系起来的;也就是说,从 (omega) 这个事件得出随机变量 (X) 的值。反过来,对于一个随机变量我们也可以定义出一个对应的事件,例如常见 (Xin A)({Xin A}) 其实指的是 ({omega|X(omega)in A});同理, (a<Xle b) 其实指的是 ({omega|a<X(omega)le b}) 这样一个事件。虽然随机变量是我们之后一直要接触的一个概念,但至少就我来说,常常仅记住了最为简单的符号却忘了其作为一个函数的本质。

    另外,既然是函数自然可以进行变换,也就是随机变量的函数 (Y(omega)=g(X(omega))) 也是一个随机变量,只是将每一个样本映射到了不同的测度空间上,例如 (X^2, sqrt{X}) 等。

    重要的离散分布

    下面两节分别介绍了一些常见的离散和连续分布,应该是在课程上较为着重介绍的,在日后的学习过程中用到的也比较多;但由于这里主要是复习性质的笔记,所以仅仅列出了自己认为比较重要的内容,若是初学请参考相关教材。

    1. 0-1分布:设随机变量 X 只取 0,1 两值,(P(X = 1) = p)(P(X = 0) = 1 − p),则称 X 服从 0-1 分布或 Bernoulli 分布。
    2. 二项分布:两个重要条件:1. 各次试验的条件是稳定的(各次试验中的概率不变),2. 各次试验的独立性
    3. 几何分布:可列重复伯努利实验中第一次成功,试验的次数。(P(X = k) = q^{k−1}p, k = 1, 2,...)。几何分布的无记忆性 (P(ξ > m + n | ξ > m) = P(ξ > n))
    4. 负二项(Pascal)分布:命名来由一则是“负指数二项展开式”,二则是由于它与二项分布相比是“反其道而行之”:二项分布是定下总抽样个数n而把废品个数X作为变量;负二项分布是定下废品个数r而把总抽样次数减去r作为变量。
      可列重复伯努利实验中第 r 次成功时试验次数,(P(X_r = k) = C_{r−1}^{ k−1}p^{ r−1} q^{ k−r} p = C_{r−1}^{ k−1}p^{r} q^{k−r})。注意到,几何分布时负二项分布在(r=1)时的特例。
    5. 泊松(Poisson)分布:泊松分布多出现在当 X 表示在一定的时间或空间内出现的事件个数(例如单位时间的放射粒子数,一天之内的顾客数量等)。泊松分布可作为二项分布的极限得到。若(X)服从二项分布,(n) 很大,(p) 很小,(np) 不太大时,(X) 的分布接近参数为 (lambda=np) 的泊松分布。 其概率分布为 (P(X=k)={lambda^kover k!}e^{-lambda})
      另外,需注意柏松分布的实际含义;其一个重要应用在于对二项分布的近似。
    6. 离散的均匀分布:设随机变量 X 取值 (a_1, a_2, …, a_n) ,且有(P(X = a_k) = {1over n}, k = 1, …, n)。可以看出, 离散的均匀分布正是古典概型的抽象。
    7. 超几何分布:抽取不放回的情况。概率分布为 (P(X=m)={C_M^m C_{N-M}^{n-m}over C_N^n}),可想成从 N 个样品中抽 M 个,记其废品数。命名是因其形式与“超几何函数”的级数展开式的系数有关。这个分布在涉及抽样的问题中常用(无放回)。(X) 服从超几何分布,当n固定;(M/N=p)固定;N趋向无穷时,(X) 近似服从二项分布
      其数学形式比较复杂,虽然在现实中很多都是超几何分布,但当样本量很大的时候,可将其近似为放回情况,即近似为二项分布。

    重要的连续分布

    在古典的「概率」框架下,我们可以很自然得理解上面离散分布的含义;在上面,我们是直接根据某一个「数值」变量作为一个随机变量的,这时这个变量取不同的值,对应着某一个事件;然而,除了离散的变量之外,还可能有连续取值的变量,在这时单个状态就没有合理的「概率」内涵了;所以根据概率的定义导出概率密度函数 pdf

    [P(a<Xle b)=int_a^b f(x)dx ]

    这时 (f(x)) 就不是表征某个事件概率的绝对大小而仅仅是概率的「集中程度」,或者是「单位长度」下的概率大小,因此其取值可大于 1(一定要用微积分的角度来理解)。对于 pdf,显然有

    • [int_{-infty}^infty f(x)dx=1 ]

    • [P(X=a)=0 ]

      因此有

      [P(a<Xle b)=P(ale Xle b) ]

    • 对数集 (A) (严格意义下要求可测性)有

      [P(Xin A)=int _A f(x)ds ]

    1. 均匀分布(U[a, b])

      其一个案例就是作为示性函数(indicator function)。

    2. 指数分布(f(x) = lambda e^{−lambda x} (x > 0))。可以看出, 参数 λ 愈大, 密度函数下降得愈快。指数分布经常用于作为各种「寿命」 的分布的近似
      指数分布的最重要的特点是 「无记忆性」,即若 X 服从指数分布,则对任意的 (s, t > 0) ,有(P(X > s + t | X > s) = P(X > t))。可以理解成,当仪器工 作了 s 小时后再能继续工作 t 小时的概率等于该仪器刚开始就能工作 t 小时的概率,说明该仪器的使用寿命不随使用时间的增加发生变化,或说仪器是「永葆青春」的。

    3. 正态分布:正态分布的密度函数是以 (x = µ) 为对称轴的对称函数,(µ) 称为位置参数,密度函数在 x = µ 处达到最大值,在((−∞, µ))((µ, +∞)) 内严格单调。(σ) 的大小决定了密度函数的陡峭程度,通常称 (σ) 为正态分布的形状参数。

    4. 威布尔(Weibull)分布:许多产品(如轴承)的使用寿命服从威布尔分布,注意,m=1时退化为指数分布。

    5. 伽马 (Gamma(alpha, eta))分布:密度函数为 (f(x;alpha,lambda)={lambda^alphaover Gamma(alpha)} x^{alpha-1}e^{-lambda x}, xge 0)

      伽马分布与指数分布、正态分布有密切关系。显然 (Γ(1, λ) = E(λ))

    6. 帕累托(Pareto)分布:家庭年收入

    7. 贝塔分布 (B(alpha,eta)) 分布:贝塔分布与二项分布、伽马分布有密切关系。

    另外,可以参看以下文章:


    懒得打公式了,可以参考这篇总结 统计分布总结 #优秀的总结

    以下来谈谈自己关于各离散和连续分布的理解。

    1. 还是先从经典的 Binomial (0-1) 分布讲起,它给出了单次实验成功的概率分布;若要关心 n 次实验中成功的概率,则变为 Bernoulli 分布,它们之间体现的是一种「一和多」的关系;另外,这是我们从实验成功的角度来看的,或者说,是事件发生的「次数」;
    2. 给定试验次数(一定的时间限定),事件发生的次数分布为上述 Binomial 和 Bernoulli;那么,换一个角度,我们感兴趣的是事件的次数,所需要的次数(时间)是多少呢?这就是下面的两个:若只关心首次出现时用了多少次实验(时间),那么就服从 Geometric 分布;这是「一」,而对于「多」次事件发生所需要的试验次数(时间),则服从的是 Negative Binomial 分布
    3. 上面介绍了两组离散的分布;另外注意到我在这里反复使用了时间的概念,正是想要和连续情况下对应起来:在连续情况下,一个事件在一个连续的情况下都有一定的概率发生(这时候自然没有了「实验」的概念),我们的关注点可以放在「时间间隔」上。对于事件首次发生/两次事件之间的间隔(假定独立性,这两者显然是等价的),服从的是 Exponential 分布 ,对应了离散情况下的 Geometric 分布;若考虑的是发生了多次事件所用事件,则服从 Gamma 分布 ,对应离散情况下的 Negative Binomial 分布;
    4. 上面是一组对应关系,那么对于 1 中是否也有这样的关系呢?这时候,因为我们关心的变为事件的「次数」了,显然是离散的了,所以没有了直接的对应关系。这里涉及到了另一个重要的分布——Poisson 分布。从某种程度上,它通过次数的概念把离散和连续变量结合了起来。一方面,我们可以把它看做是一个计数函数(参考 https://www.zhihu.com/question/34866983 ,泊松过程),描述了在一定的时间间隔下事件发生的次数,从而和 Exponential 分布相联系;另一方面,它的密度公式事实上是 Bernoulli 分布在次数很大,而事件的概率很小的情况下的极限(同时需要两者的乘积满足 (λ=np) ,n 很大可以看做次数越来越多,间隔越来越小趋向于连续;而在趋向连续时 p 显然趋向于 0)。

    随机变量函数的分布

    在之前的概率密度函数 pdf/pmf 的基础上,我们可以定义(累积)分布函数 cdf。即 (F(x)=P(X<x)) 。显然,其有单调不减、右连续等性质。

    下面我们要导出随机变量的函数的分布。对于离散情况来说,我们可以直接根据分布列变换得到;所以关键是连续变量(当然可以推广得到统一的形式?)。我们有定理:

    定理:设随机变量 X 取值于 (C ⊂ R,Y = g(X),g(x))(C)(D ⊂ R) 的一一变换,(x = h(y) = g^{−1} (y))(g(x)) 的反函数,设 (h(y)) 有连续的 导数。则

    [f_Y (y) = f(h(y))|h ′ (y)|, y ∈ D ag{4.1} ]

    事实上,我们可以利用这个公式证明正态分布的线性变换结果。下面给出一个例子:设 (X ∼ N(0, 1)),求 (Y = X^2) 的分布。注意到,上面的公式是对于单调函数来说的,而对于非单调的函数有相应的拓展形式,我们仅需要记得简单求和即可。

    在此例中,并非一个一一变换,设 (D=(0,infty)),并且事件

    [{Y=y}={X=sqrt{y}}+{X=-sqrt{y}}, yin D ]

    这里有分段的两个逆变换 (h_1 (y) =sqrt y, h_2 (y) = − sqrt y) 满足条件,于是

    [f(Y)(y)=f_X(h_1(y))|h_1'(y)|+f_X(h_2(y))|h_2'(y)|\={1over sqrt{2pi}}exp(-{1 over 2}h_1^2(y)){1over 2sqrt{y}}+{1over sqrt{2pi}}exp(-{1 over 2}h_2^2(y)){1over 2sqrt{y}}\={1over sqrt{2pi y}}e^{-y/2}, y>0 ]

  • 相关阅读:
    数据分析实战(4)-Kaggle-谷歌数据分析
    东财主力资金异动数据探索分析
    数据分析实战(2)-Kaggle-共享单核数据分析
    爬虫框架Scrapy 之(二) --- scrapy文件介绍
    爬虫框架Scrapy 之(一) --- scrapy整体认识
    atomic
    坑爹的缩写
    一些坑爹的结构体
    sensor hub
    android p 常识
  • 原文地址:https://www.cnblogs.com/easonshi/p/12119486.html
Copyright © 2011-2022 走看看