zoukankan      html  css  js  c++  java
  • 统计学及机器学习基础(一)协方差矩阵(转)

    1. 方差和协方差的定义

    在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量的相似程度,其中,方差的计算公式为
    [公式]
    其中,[公式] 表示样本量,符号 [公式] 表示观测样本的均值,这个定义在初中阶段就已经开始接触了。

     

    在此基础上,协方差的计算公式被定义为

    [公式]

    在公式中,符号 [公式] 分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差 [公式] 可视作随机变量 [公式] 关于其自身的协方差 [公式] .

    2. 从方差/协方差到协方差矩阵

     

    根据方差的定义,给定 [公式] 个随机变量 [公式] ,则这些随机变量的方差(样本方差)为

    [公式]

    其中,为方便书写, [公式] 表示随机变量 [公式] 中的第 [公式] 个观测样本, [公式] 表示样本量,每个随机变量所对应的观测样本数量均为 [公式] 。

     

    对于这些随机变量,我们还可以根据协方差的定义,求出两两之间的协方差,即

    [公式]

     

    因此,协方差矩阵为

    [公式]

    其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定:矩阵 [公式] 为对称矩阵(symmetric matrix),其大小为 [公式]

    3. 多元正态分布与线性变换

     

    假设一个向量 [公式] 服从均值向量为 [公式] 、协方差矩阵为 [公式] 的多元正态分布(multi-variate Gaussian distribution),则
    [公式]

     

    令该分布的均值向量为 [公式] ,由于指数项外面的系数 [公式] 通常作为常数,故可将多元正态分布简化为

    [公式]

     

    再令 [公式] ,包含两个随机变量 [公式] 和 [公式] ,则协方差矩阵可写成如下形式:

    [公式]

     

    用单位矩阵(identity matrix) [公式] 作为协方差矩阵,随机变量 [公式] 和 [公式] 的方差均为1,则生成如干个随机数如图1所示。

    图1 标准的二元正态分布

    在生成的若干个随机数中,每个点的似然为

    [公式]

     

    对图1中的所有点考虑一个线性变换(linear transformation): [公式] ,我们能够得到图2.

    图2 经过线性变换的二元正态分布,先将图1的纵坐标压缩0.5倍,再将所有点逆时针旋转30°得到。

     

    在线性变换中,矩阵 [公式] 被称为变换矩阵(transformation matrix),为了将图1中的点经过线性变换得到我们想要的图2,其实我们需要构造两个矩阵:

    • 尺度矩阵(scaling matrix):

    [公式]

    • 旋转矩阵(rotation matrix)

    [公式]

    其中, [公式] 为顺时针旋转的度数。

     

    变换矩阵、尺度矩阵和旋转矩阵三者的关系式:
    [公式]

     

    在这个例子中,尺度矩阵为 [公式] ,旋转矩阵为 [公式][公式] ,故变换矩阵为

    [公式] .

     

    另外,需要考虑的是,经过了线性变换, [公式] 的分布是什么样子呢?

    将 [公式] 带入前面给出的似然 [公式] ,有

    [公式]

    [公式]

     

    由此可以得到,多元正态分布的协方差矩阵为

    [公式] [公式] .

     

    4. 协方差矩阵的特征值分解

     

    回到我们已经学过的线性代数内容,对于任意对称矩阵 [公式] ,存在一个特征值分解(eigenvalue decomposition, EVD):

    [公式]

    其中,[公式]的每一列都是相互正交的特征向量,且是单位向量,满足 [公式] ,[公式]对角线上的元素是从大到小排列的特征值,非对角线上的元素均为0。

     

    当然,这条公式在这里也可以很容易地写成如下形式:

    [公式]

    其中, [公式] ,因此,通俗地说,任意一个协方差矩阵都可以视为线性变换的结果。

     

    在上面的例子中,特征向量构成的矩阵为

    [公式] .

    特征值构成的矩阵为

    [公式] .

     

    到这里,我们发现:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置,在图1和图2中,均值向量为 [公式] ,因此,概率密度的中心位于坐标原点。

  • 相关阅读:
    Problem D: 双向冒泡排序
    Problem C: 查找最大元素
    Problem D: 小平查密码
    Problem C: 文件单词首字母大写
    Problem B: 文件操作文本文件读入
    Problem A: 文件操作二进制文件读入
    Problem A: 实现链表(线性表)
    【leetcode】包含min函数的栈
    【leetcode】反转链表
    【leetcode】合并两个排序的链表
  • 原文地址:https://www.cnblogs.com/wex1022/p/14007278.html
Copyright © 2011-2022 走看看