本章主要是对方差,协方差,协方差矩阵进行一个总结,因为在下总是喜欢把这几者弄混淆。
一. 方差
方差是用来表征数据,或样本的离散程度的一个指标。当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
离散型随机变量方差计算公式:D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2
连续型随机变量方差的计算公式: D(X)=
(x-μ)^2 f(x) dx
二. 协方差
协方差是衡量两个变量间的总体误差,当两个两量相同时,即为方差,也就是说方差是协方差的一种特殊情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。协方差为0的两个随机变量称为是不相关的。
三. 协方差矩阵
分别为m与n个标量元素的列向量随机变量X与Y,这两个变量之间的协方差定义为m×n矩阵.其中X包含变量X1.X2......Xm,Y包含变量Y1.Y2......Yn,假设X1的期望值为μ1,Y2的期望值为v2,那么在协方差矩阵中(1,2)的元素就是X1和Y2的协方差。