zoukankan      html  css  js  c++  java
  • 数字特征:协方差 & 相关系数

    【引入】

    对于二维随机变量 $(X,Y)$ ,我们除了讨论 $X$ 与 $Y$ 的数学期望和方差除外,

    还需要讨论描述 $X$ 与 $Y$ 之间相互关系的数字特征。

    在《数字特征:方差》方差性质3的证明中,我们已经看到,

    如果两个随机变量 $X$ 与 $Y$ 是相互独立的,则 $E{ [X-E(X)][Y-E(Y)]} =0$

    这意味着当 $E{ [X-E(X)][Y-E(Y)]} eq 0$ 时, $X$ 与 $Y$ 不相互独立,而是存在一定的关系的。

    【定义】

    量 $E{ [X-E(X)][Y-E(Y)]}$ 称为随机变量 $X$ 与 $Y$ 的协方差,记为 $Cov(X,Y)$

    $$Cov(X,Y)=E{ [X-E(X)][Y-E(Y)]}$$

    $$ ho_{XY}=frac{Cov(X,Y)}{sqrt{D(X)}sqrt{D(Y)}}$$

    称为随机变量 $X$ 与 $Y$的相关系数

    由定义,即知

    $$Cov(X,Y)=Cov(Y,X),quad Cov(X,X)=D(X)$$

    由上述定义及(2.5)式知道,对于任意两个随机变量 $X$ 与 $Y$ ,下列等式成立

    $$D(X+Y)=D(X)+D(Y)+2Cov(X,Y) ag{3.1}$$

    将 $Coc(X,Y)$ 的定义式展开,易得

    $$Cov(X,Y)=E(XY)-E(X)E(Y) ag{3.2}$$

    我们常常用这一式子计算协方差。


    协方差的性质

    1. $Cov(aX,bY)=abCov(X,Y),a,b是常数$

    2. $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$


    $ ho_{XY}$ 的两条重要性质

    考虑以 $X$ 的线性函数 $a+bX$ 来近似表示 $Y$ 。

    我们以均方误差

    $$e=E[(Y-(a+bX))^2]qquad qquad qquad qquad qquad qquad qquad qquad quad $$

    $$=E(Y^2)+b^2E(X^2)+a^2-2bE(XY)+2abE(X)-2aE(Y) ag{3.3}$$

    来衡量以 $a+bX$ 近似表达 $Y$ 的好坏程度。

    $e$ 的值越小表示 $a+bX$ 与 $Y$ 的近似程度越好。

    这样,我们就取 $a,b$ 使 $e$ 取到最小。

    下面就来求最佳近似式 $a+bX$ 中的 $a,b$ 。为此,将 $e$ 分别关于 $a,b$ 求偏导数,并令它们等于零,得

    $$egin{cases}frac{partial e}{partial a}=2a+2bE(X)-2E(Y)=0,\ frac{partial e}{partial b}=2bE(X^2)-2E(XY)+2aE(X)=0end{cases}$$

    解得

    $$b_0=frac{Cov(X,Y)}{D(X)}$$

    $$a_0=E(Y)-b_0E(X)=E(Y)-E(X)frac{Cov(X,Y)}{D(X)}$$

    将 $a_0,b_0$ 带入(3.3)式得

    $$min_{a,b}E{ [Y-E(a+bX)]^2}=E{ [Y-(a_0+b_0X)]^2}=(1- ho_{XY}^{2})D(Y) ag{3.4}$$

    由(3.4)式容易得到下述定理:

    【定理】

    1. $| ho_{XY}|leq 1$

    2. $| ho_{XY}|=1$ 的充要条件是,存在常数 $a,b$ 使 $P{ Y=a+bX}=1$

    证:(省略,日后再补)

    $ ho_{XY}$ 的含义 

    由(3.4)知,均方误差 $e$ 是 $| ho_{XY}|$ 的严格单调减少函数,这样 $ ho_{XY}$ 的含义就很明显了。

    当 $| ho_{XY}|$ 较大时 $e$ 较小,表明 $X,Y$ (就线性关系来说)联系较紧密。

    特别当 $| ho_{XY}|=1$ 时,由定理中的2,$X,Y$ 以概率1存在着线性关系。

    于是 $ ho_{XY}$ 是一个可以用来表征 $X,Y$ 之间的线性关系紧密程度的量。

    当 $| ho_{XY}|$ 较大时,我们通常说 $X,Y$ 线性相关的程度较好;

    当 $| ho_{XY}|$ 较小时,我们说,$X,Y$ 线性相关的程度较差。

    当 $| ho_{XY}|=0$ 时,称 $X,Y$ 不相关。


      

    相关与相互独立的关系

    假设随机变量 $X,Y$ 的相关系数 $ ho_{XY}$ 存在。

    当 $X$ 和 $Y$ 相互独立时,由数学期望的性质4及(3.2)式知 $Cov(X,Y)=0$ ,从而 $ ho_{XY}=0$ ,即 $X,Y$ 不相关。

    反之,若 $X,Y$ 不相关,$X$ 和 $Y$ 却不一定相互独立(见【例1】)。

    上述情况,从“不相关”和“相互独立”的含义来看是明显的,这是因为不相关只是就线性关系来说的,而相互独立是就一般关系而言的。

    不过从【例2】可以看到,当 $(X,Y)$ 服从二维正态分布时,$X$ 和 $Y$ 不相关与 $X$ 和 $Y$ 相互独立是等价的。

    【例1】

    设 $(X,Y)$ 的分布律为

    YX -2 -2 1 2 $P{ Y=i}$
    1 0 1/4 1/4 0 1/2
    4 1/4 0 0 1/4 1/2
    $P{ X=i}$ 1/4 1/4 1/4 1/4 1

    易知 $E(X)=0,E(Y)=5/2,E(XY)=0$ ,于是 $ ho_{XY}=0,X,Y$不相关。

    这表示 $X,Y$ 不存在线性关系,但,$P{ X=-2,Y=1}=0 eq P{ X=-2,} P{ Y=1}$ 知 $X,Y$ 不是相互独立的。

    事实上,$X$ 和 $Y$ 具有关系:$Y=X^2$ ,$Y$ 的值完全可由 $X$ 的值所确定。

    【例2】二维正态分布

  • 相关阅读:
    [C++11新特性] weak_ptr和unique_ptr
    [C++11新特性] shared_ptr共享的智能指针
    VS2019 Qt5.15.2 开发环境搭建
    【C++11 新特性】Lambda表达式(三)
    【C++11 新特性】bind(二)
    【C++11 新特性】function(一)
    【IPC 进程间通信】有名管道的简单实现
    【IPC 进程间通信】常用进程间通信方式总结
    Qt 文件常见操作管理类
    【GitHub 开源分享】QML 在线预览工具
  • 原文地址:https://www.cnblogs.com/ForTech/p/8605844.html
Copyright © 2011-2022 走看看