【初等概率论】 04

zoukankan html css js c++ java

【初等概率论】 04

　　随机变量的分布函数包含了它的全部信息，随之我们就需要对随机变量进行一些定量分析，即通过相对简单的数值来度量随机变量的某些特征。有些特征对于随机变量来说比较基本、比较重要，比如平均值、分散程度等，本篇就集中讨论这些特征。

1. 数学期望

1.1 期望的定义

　　随机变量可取到一些实数值，对其最常用的一种度量便是平均值，而每个值上的概率（或概率密度）应当作为权值。具体来说，在离散场合，把式（1）右定义为随机变量(xi)的“平均值”，它也被称为数学期望。要注意一点，我们希望平均值不受(x_i)顺序的影响，故数学期望的定义还要加上绝对收敛的条件（式（1）左）。

[sumlimits_{i=1}^{infty}|x_i|p(x_i)<infty;Rightarrow;Exi=sumlimits_{i=1}^{infty}x_ip(x_i) ag{1}]

　　对连续场景，密度函数与本质上就是概率分布，故可将式（1）推广成式（2）左。当它绝对收敛时，也被称为(xi)的数学期望。为了有统一定义，需要引进式（2）右的Stieltjes积分，它的严格定义和统一性证明需要用到实变函数的知识，以下仅借用其形式以避免离散和连续的分类讨论。

[Exi=int_{-infty}^{+infty}xp(x)\, ext{d}x;;;Exi=int_{-infty}^{+infty}x\, ext{d}F_{xi}(x) ag{2}]

　　把平均值叫成数学期望其实是有道理的，因为对随机现象来说，它就是理论上的期望值。数学期望是对随机向量最基本的一个度量值，单一的度量值更便于应用，它存在于社会经济的各方面，为经济行为提供了决策的依据。

　　• 已知人群中某疾病的患病率为(p)，请设计一种验血方法，使得验血次数尽量少（可混合验）；

　　• 有无限多的(N)种卡片，求集齐它们平均需要抽多少次？

　　• (n)根绳子放在箱子中，随机将绳头两两相连，求形成圈数的期望值。

1.2 变量函数的期望

　　对随机变量的讨论，总离不开对其函数的分析，这里也照例看看随机变量函数的数学期望。如果理解了数学期望的定义，便知道它其实就是加权平均值，在这里变量函数就是值，而变量的概率还是权值，故函数的期望一定是式（3）所示。当然这只是一个直观解释，严格证明还是需要实变函数的知识。

[Eg(xi_1,cdots,xi_n)=int_{-infty}^{+infty}cdotsint_{-infty}^{+infty}g(x_1,cdots,x_n)\, ext{d}F(x_1,cdots,x_n) ag{3}]

　　式（3）一般计算起来比较困难，但利用积分运算的特点，在有些常见情况下可以简化运算。首先如果(g(x_1,cdots,x_n)=g_1(x_1)cdots g_n(x_n))，且(xi_1,cdots,xi_n)互相独立，则可以把积分分离得到式（4）。另外如果(g(x_1,cdots,x_n)=g_1(x_1)+cdots+g_n(x_n))，不需要独立性便有式（5）成立。

[E[g(x_1,cdots,x_n)]=Eg_1(xi_1)Eg_2(xi_2)cdots Eg_n(xi_n) ag{4}]

[E[g_1(xi_1)+cdots+g_n(xi_n)]=Eg_1(xi_1)+cdots+Eg_n(xi_n) ag{5}]

　　式（4）的典型特例是式（6）左，其中(xi_1,cdots,xi_n)互相独立。式（5）的典型特例是线性函数（式（6）右），它不要求独立性，这一点非常有用。比如前面我们已经知道：二项分布是独立的伯努利分布之和，帕斯卡分布是独立的几何分布之和，埃尔朗分布是独立指数分布的和，它们的期望值可以直接求得。

[Exi_1xi_2cdotsxi_n=Exi_1Exi_2cdots Exi_n;;;Eleft(sum_{i=1}^{infty} a_ixi_i+b ight)=sum_{i=1}^{infty} a_iExi_i+b ag{6}]

　　• (M)个产品中有(m)个次品，采用不放回抽样，求次品数的期望；

　　• （报童问题）卖报数服从泊松分布，求每天进多少张收益最大。

2. 方差

2.1 矩和方差

　　数学期望(Exi)是随机变量的平均值，或者可以称作随机变量的中心(mu)。上面还提过，数学期望是变量值的加权平均，稍作扩展便可定义式（7）左的(k)阶零点矩。之所以叫零点矩，是因为单个值是随机变量与(0)的偏差的(k)次幂。如果以中心(mu)为偏差参考，则可以定义式（7）右的(k)阶中心矩。

矩在数学里有多类似的概念，是一个很常规的度量，这里仅作简单的讨论。

[m_k=Exi^k;;;c_k=E(xi-Exi)^k ag{7}]

　　和期望一样，矩也要先讨论存在性，由于(|xi|^{k-1}leqslant 1+|xi|^k)，故有结论：如果(k)阶矩存在，则低于(k)阶的矩都存在。另外，不难按二项式展开(k)阶中心矩，得到式（8）左。然后用反演公式便可得到式（8）右，当然也可以直接计算。

[c_k=sum_{i=0}^{k}inom{k}{i}(-m_1)^{k-i}m_i;;;m_k=sum_{i=0}^{k}inom{k}{i}m_1^{k-i}c_i ag{8}]

　　当(k=2)时，中心矩(c_2)可以看成是随机变量对中心偏离程度的一种度量（式（9）），它被称为随机变量的方差。由于矩的良好分析性质，选取(c_2)作为偏离度的度量非常便于处理。为了与随机变量有相同的量纲，也称( ho=sqrt{Dxi})为标准差。

[ ho^2=Dxi=E(xi-Exi)^2=Exi^2-(Exi)^2 ag{9}]

　　关于方差和标准差，我有些自己的理解，可能不太准确。下面我们难免会拿线性代数中的向量和随机变量做对比，我想在这里先建立一个直观的联系。向量可以看做是相对原点的一个偏移，标准化向量则是统一了偏移的绝对值而保利了方向信息。随机变量则可以看作是相对期望值的偏移，标准差是统一了偏移的绝对值而保留了分布信息。由此可见，中心矩比零点矩有更实际的意义，对随机变量做中心化处理往往是必须的。

2.2 方差的性质

　　刚才提到方差具有很好的分析性质，这里就举一些简单的例子，并且这些结论以后也是经常用到的。首先有一个简单的不等式（10），它表明中心是与随机变量偏差最小的值，这也很符合“中心”的含义，用中心化的随机变量的(2)阶矩定义方差是明智的。

[E(xi-c)^2=E(xi-Exi)^2+(Exi-c)^2geqslant Dxi ag{10}]

　　方差表示随机变量对中心的偏移程度，这个描述有更具体的佐证吗？还真有！结论表明，方差可以用来估算随机变量在中心周围的分布。具体来看式（11）的推导，其中(varepsilon>0)为任意正数，该式整理后便是著名的切比雪夫不等式（12）。这个不等式对中心某个范围外的随机变量进行了很好的估算，特别地，它还可以直接证明：方差为(0)的随机变量是常数。

[Dxigeqslantintlimits_{|x-Exi|geqslantvarepsilon}varepsilon^2\, ext{d}F(x)=varepsilon^2P(|xi-Exi|geqslantvarepsilon) ag{11}]

[P(|xi-Exi|geqslantvarepsilon)leqslantdfrac{Dxi}{varepsilon^2} ag{12}]

　　最后还是照例看看，随机变量的函数的方差如何计算。方差的计算比期望复杂的多，故函数的方差很难有好的性质，并且目前我们的工具还不够。这里就先讨论最简单的一元一次函数(eta=kxi+c)，容易验证有式（13）成立，它表明偏移不影响偏差，而缩放则影响较大，这是符合直觉的。有时候为了研究随机变量分布的本质特点，会将其均值和方差统一成((0,1))，式（14）定义的(xi^*)便叫标准化的随机变量。标准变量的切比雪夫不等式有更简单的表达式（15），体会刚才说的“本质特点”。

[D(xi+c)=D(xi);;D(kxi)=k^2D(xi) ag{13}]

[xi^*=dfrac{xi-Exi}{sqrt{Dxi}};Rightarrow;Exi^*=0,;Dxi^*=1 ag{14}]

[P(|xi^*|geqslantvarepsilon)leqslantdfrac{1}{varepsilon^2} ag{15}]

2.3 协方差和相关系数

　　当研究线性函数的方差(D(xi+eta))时，你会发现无法绕开对(Exieta)的讨论，中心化后便是对式（16）的讨论，该式被称为(xi,eta)的协方差。不难发现，它是方差概念的推广，方差好比是向量的一个平方和范数，协方差则好比向量的内积，平方和范数是内积的特例，而方差是协方差的特例。为此，对协方差的研究，完全可以参照对向量内积的研究。标准化的内积表示向量间的线性关系，内积为(0)表示向量正交，内积为(pm 1)则是共线的。在欧几里得空间中，标准化内积更是直接表示了直线的夹角。

[ ext{cov}(xi,eta)=E[(xi-Exi)(eta-Eeta)]=E(xieta)-Exicdot Eeta ag{16}]

　　为此，我们很兴奋地大胆猜测，标准化后的协方差（式（17））一定也是随机向量某种“线性关系”的度量。我们需要对此做进一步的验证，为简单起见，只需讨论中心化后的变量(xi,eta)，而此时( ho)的表达式中只有(E(xieta))和(Exi^2cdot Eeta^2)。由形式特点，我们不难想到想用判别式法，即由式（18）得到式（19）。它也被称为柯西不等式，等号成立的充要条件是，存在常数(t_0)使得(eta=t_0xi)。注意，柯西不等式本身是不需要(xi,eta)中心化的。

[ ho=dfrac{ ext{cov}(xi,eta)}{sqrt{Dxicdot Deta}},;;(| ho|leqslant 1) ag{17}]

[E(txi-eta)^2=t^2Exi^2-2tE(xieta)+Eeta^2geqslant 0 ag{18}]

[(Exieta)^2leqslant Eeta^2cdot Eeta^2 ag{19}]

　　有柯西不等式立刻能得到(| ho|leqslant 1)，并且等号成立时有(xi^*=pmeta^*)。这说明把( ho)作为线性关系的度量是很有合理的，( ho)因此也被称为随机变量的相关系数。当( ho=0)时我们称随机变量是不相关的，需要强调的是这里的相关只是线性相关。随机变量(xi,eta)不相关的等价条件是(Exieta=Exi Eeta)，中心化后便是(Exieta=0)，这和向量直交完全对应！

　　到此为止，我们可以继续研究方差(D(xi+eta))了。首先容易有式（20）成立，该式有时可以用来计算协方差。当(xi,eta)不相关时，有( ext{cov}(xi,eta)=0)，(D(xi+eta))便有了更简单的表达式(Dxi+Deta)。更一般地，如果(xi_1,cdots,xi_n)两两不相关，则有式（21）成立。

[D(xi+eta)=E(xi+eta)^2=Dxi+Deta+2 ext{cov}(xi,eta) ag{20}]

[Dleft(sumlimits_{i=1}^na_ixi_i+b ight)=sumlimits_{i=1}^na_i^2Dxi_i+b ag{21}]

　　由于不相关仅针对线性关系，它是比独立性更弱的条件，也就是说独立的随机变量一定是不相关的，这可以由等价条件(Exieta=Exi Eeta)直接得出。但反之，不相关的随机变量却也可能是不独立的，举个简单的例子自己体会(eta=xi^2)。然而对独立同分布随机变量，式（21）必然成立，这个结论可以说明：取多次测量的平均值可以降低误差（式（22））。

[D(dfrac{1}{n}sumlimits_{i=1}^nxi_i)=dfrac{sigma^2}{n} ag{22}]

　　• 有两只铅笔，同样只测量两次，如何降低误差？

2.4 线性回归

　　现在来考虑一个问题，假定随机变量(xi,eta)存在某个函数关系(eta=f(xi))，但事先只知道它们的联合分布（由试验所得），则如何找到(f(x))的最佳逼近(g(x))？何为最佳逼近？有了方差的基本思想后，可知要求(E(eta-g(xi))^2)达到最小是比较合理的。类似式（10）的证明，显然应该取(g(x)=E{eta|xi=x})，为此随机变量(g(xi)=E{eta|xi})也被称为(eta)关于(xi)的回归。容易验证它满足式（23），它被称为重期望公式，可以用来间接计算(Eeta)。

[E[E{eta|xi}]=Eeta ag{23}]

　　以上回归模型要求能提供条件分布，这对样本点有一定要求，当样本点在每个变量上都比较随机时，则无法使用。但当预估(xi,eta)有代参函数关系(eta=f(xi,c_1,cdots,c_n))时，同样可以通过计算(E[eta-f]^2)的极值而得到参数值。比如假设变量有线性关系(L(x)=ax+b)，为使函数(c(a,b)=E[eta-(axi+b)]^2)达到最值，可令其偏导数为零，最终便能得到式（24）（请自行计算）。

[L(x)= hodfrac{sigma_2}{sigma_1}(x-mu_1)+mu_2 ag{24}]

　　(L(xi))称为(eta)关于(xi)的线性回归，式中的每个参数都可以由样本点估算得来，对样本点的采集没有特殊的要求。容易算得(eta-L(xi))的方差是(sigma_2^2(1- ho^2))，这再次说明了( ho)是随机变量线性关系的度量。我们还可以说，(L(xi))已经提取了(eta)关于(xi)的所有线性关系，即(eta-L(xi))与(xi)是不相关的（自行验证），该结论被称为均值-方差理论。有没有发现这里有最小二乘法的影子？它们本质是相通的。

3. 特征函数

3.1 母函数

　　虽然分布函数给出了概率分布的统一形式，但很多分布函数并没有良好的分析性质，这也使得它的应用非常受限。我们急需要一种新的函数，它既能完整表达整个概率分布，又具有十分良好的分析性质。对非负离散随机变量，我们不难想到数列的母函数，由概率分布的规范性知，式（25）在(|s|leqslant 1)上一致且绝对收敛。

[P(s)=sum_{k=0}^{infty}p_ks^k=Es^{xi} ag{25}]

　　母函数有着非常好的分析性质，尤其一些常见分布的母函数也很简洁，这为处理问题提供了方便，甚至可以用母函数取代概率分布。一个很有用的结论是式（26），利用它们可以方便地计算期望和方差。

(xi) (b(k;n,p)) (g(k;p)) (b(k;lambda))

(P(s)) ((ps+q)^n) (dfrac{ps}{1-qs}) (e^{lambda(s-1)})

[Exi=P'(1);;;Dxi=P''(1)+P'(1)-[P'(1)]^2 ag{26}]

　　按照惯例，引入一个新特征，总要考察一下变量函数的特征。在这里不难证明，对独立随机变量(xi,eta)，设它们的母函数为(A(s),B(s))，则(xi+eta)的母函数为(A(s)B(s))。特别地，(n)个独立同分布随机变量和的母函数是(P^n(s))，这对我们在“常见分布”那篇中提到的分布很有用。

　　最后再来看个问题，对于独立同步变量(xi_i)，计算(zeta=xi_1+xi_2+cdots+xi_{eta})，其中(eta)也是随机变量。设(xi_i,eta)相互独立且母函数分别为(F(s),G(s))。不难证明（从略），(zeta)的母函数为(G[F(s)])，并进而求得(Ezeta=Exicdot Eeta)。

　　• 掷5颗筛子，求和为(15)的概率；

　　• 蚕的产卵数服从泊松分布，每个卵成虫律为(p)，求成虫数的分布。

3.2 特征函数

　　母函数虽然好用，但它只能运用在离散随机变量，对于连续随机变量或更一般的情况，有没有类似的工具呢？如果你学过傅里叶分析，应当知道傅里叶变换就是母函数思想的升级版本，为此我们把式（27）称为随机变量(xi)的特征函数。对离散情况它就是母函数(P(e^{it}))，连续情况则是密度函数的傅里叶变换形式。关于傅里叶变换，我目前还知之甚少，故不多做阐述。

[f_{xi}(t)=Ee^{itxi}=int_{-infty}^{infty}e^{itx}\, ext{d}F_xi(x) ag{27}]

　　和母函数一样，对独立随机变量(xi_i)，它们和的特征函数满足式（28）。离散变量的特征函数可以直接由母函数修改得到，这里仅列出指数分布的特征函数（式（29）），埃尔朗分布的特征函数自然也就出来了。

[f_{xi_1+xi_2+cdots+xi_n}(t)=f_{xi_1}(t)f_{xi_2}(t)cdots f_{xi_n}(t) ag{28}]

[xisim lambda e^{-lambda x};Rightarrow;f_{xi}(x)=left(1-dfrac{it}{lambda} ight)^{-1} ag{29}]

　　仔细观察式（28），特征函数中的幂函数将加法变成乘法，但很多变量的特征函数仍保持着幂函数成分，乘法此时还能变成加法。具体来说，如果含参分布(F(k))的特征函数有形式(X^k)，那么对于独立同分布(xi_1,xi_2)有式（30）成立，它被称为特征函数的再生性。满足这个特点的分布函数比较多，比如二项分布、帕斯卡分布、泊松分布、埃尔朗分布等。

[xisim F(x;k),;f_{xi}=X^k;Rightarrow;(xi_1+xi_2)sim F(x;k_1+k_2) ag{30}]

　　对于随机向量(overrightarrow{xi}=(xi_1,cdots,xi_n))，同样可以定义特征函数（31）。由这个式子不难得到，随即向量子空间的特征函数是将其它维的(t_i)取(0)得到，比如((xi_1,cdots,xi_m))的特征函数为(f(t_1,cdots,t_m,0,cdots,0))。还可以知道，(xi_i)相互独立的充要条件是(f(t_1,cdots,t_n)=prod f_{xi_i}(t_i))。

[f_{overrightarrow{xi}}(t_1,cdots,t_n)=int_{-infty}^{infty}cdotsint_{-infty}^{infty}e^{i(t_1x_1+cdots+t_nx_n)}\, ext{d}F_{overrightarrow{xi}}(overrightarrow{x}) ag{31}]

　　随机变量还有一个非常重要的度量方法，就是考察其“不确定性”的程度、或者包含的“信息量”。可想而知，这个量与期望、方差都没有关系，它只关乎“随机程度”。这个概念叫“熵”，它是一个非常有趣且丰富的课题，属于概率论的一个应用分支。缺少“熵”的概念并不影响概率论本身，故这里不作介绍，以后会在《信息论》中展开讨论。

查看全文

相关阅读:
Android数据库升级，数据不丢失解决方案
 Android项目中单实例数据库类,解决database is locked
Android彩蛋效果，微信彩蛋效果
 Android性能优化
 Unable to execute dex: method ID not in [0, 0xffff]: 65536
Android下载速度计算
 Android中不混淆类中函数
 Android中Parcelable接口用法
 开启Ubuntu Linux下VirtualBox访问USB功能
 touch移动触屏滑动事件

原文地址：https://www.cnblogs.com/edward-bian/p/6372310.html

(xi)	(b(k;n,p))	(g(k;p))	(b(k;lambda))
(P(s))	((ps+q)^n)	(dfrac{ps}{1-qs})	(e^{lambda(s-1)})

【初等概率论】 04

1. 数学期望

1.1 期望的定义

1.2 变量函数的期望

2. 方差

2.1 矩和方差

2.2 方差的性质

2.3 协方差和相关系数

2.4 线性回归

3. 特征函数

3.1 母函数

3.2 特征函数