zoukankan      html  css  js  c++  java
  • 高斯分布-笔记(1)

    1 -单变量高斯分布

    单变量高斯分布概率密度函数定义为:

    [p(x)=frac{1}{sqrt{2pisigma}}exp{-frac{1}{2}(frac{x-mu}{sigma})^2} ag{1.1} ]

    式中(mu)为随机变量(x)的期望,(sigma^2)(x)的方差,(sigma)称为标准差:

    [mu=E(x)=int_{-infty}^infty xp(x)dx ag{1.2} ]

    [sigma^2=int_{-infty}^infty(x-mu)^2p(x)dx ag{1.3} ]

    可以看出,该概率分布函数,由期望和方差就能完全确定。高斯分布的样本主要都集中在均值附近,且分散程度可以通过标准差来表示,其越大,分散程度也越大,且约有95%的样本落在区间((mu-2sigma,mu+2sigma))

    2 - 多元高斯分布

    多元高斯分布的概率密度函数。多元高斯分布的概率密度函数定义:

    [p({f x})=frac{1}{(2pi)^{frac{d}{2}}|Sigma|^frac{1}{2}}exp{-frac{1}{2}({f x-mu})^T{Sigma}^{-1}({f x-mu})} ag{2.1} ]

    其中({f x}=[x_1,x_2,...,x_d]^T)(d)维的列向量;
    ({f mu}=[mu_1,mu_2,...,mu_d]^T)(d)维均值的列向量;
    (Sigma)(d imes d)维的协方差矩阵;
    ({Sigma}^{-1})(Sigma)的逆矩阵;
    (|Sigma|)(Sigma)的行列式;
    ((f x-mu)^T)((f x-mu))的转置,且

    [mu=E(f x) ag{2.2} ]

    [Sigma=E{(f x-f mu)(f x - mu)^T} ag{2.3} ]

    其中(mu,Sigma)分别是向量(f x)和矩阵((f x -mu)(f x -mu)^T)的期望,诺(x_i)(f x)的第(i)个分量,(mu_i)(mu)的第(i)个分量,(sigma_{ij}^2)(sum)的第(i,j)个元素。则:

    [mu_i=E(x_i)=int_{-infty}^infty x_ip(x_i)dx_i ag{2.4} ]

    其中(p(x_i))为边缘分布:

    [p(x_i)=int_{-infty}^inftycdotcdotcdotint_{-infty}^infty p({f x})dx_1dx_2 cdotcdotcdot dx_d ag{2.5} ]

    [egin{eqnarray}sigma_{ij}^2 &=&E[(x_i-mu_i)(x_j-mu_j)]\ &=&int_{-infty}^inftyint_{-infty}^infty(x_i-mu_i)(x_j-mu_j)p(x_i,x_j)dx_idx_j end{eqnarray} ag{2.6}]

    不难证明,协方差矩阵总是对称非负定矩阵,且可表示为:

    [Sigma= egin{bmatrix} sigma_{11}^2 & sigma_{12}^2 cdotcdotcdot sigma_{1d}^2 \ sigma_{12}^2 & sigma_{22}^2 cdotcdotcdot sigma_{2d}^2\ cdotcdotcdot &cdotcdotcdot\ sigma_{1d}^2 & sigma_{2d}^2 cdotcdotcdot sigma_{dd}^2 end{bmatrix}]

    对角线上的元素(sigma_{ii}^2)(x_i)的方差,非对角线上的元素(sigma_{ij}^2)(x_i)(x_j)的协方差。
    由上面可以看出,均值向量(mu)(d)个参数,协方差矩阵(sum)因为对称,所以有(d(d+1)/2)个参数,所以多元高斯分布一共由(d+d(d+1)/2)个参数决定。
    从多元高斯分布中抽取的样本大部分落在由(mu)(Sigma)所确定的一个区域里,该区域的中心由向量(mu)决定,区域大小由协方差矩阵(Sigma)决定。且从式子(2.1)可以看出,当指数项为常数时,密度(p(f x))值不变,因此等密度点是使指数项为常数的点,即满足:

    [({f x}-mu)^T{Sigma}^{-1}({f x-mu})=常数 ag{2.7} ]

    上式的解是一个超椭圆面,且其主轴方向由(sum)的特征向量所决定,主轴的长度与相应的协方差矩阵(Sigma)的特征值成正比。
    在数理统计中,式子(2.7)所表示的数量:

    [gamma^2=({f x}-mu)^T{Sigma}^{-1}({f x}-mu) ]

    称为(f x)(mu)的Mahalanobis距离的平方。所以等密度点轨迹是(f x)(mu)的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。对应的M式距离为(gamma)的超椭球体积为:

    [V=V_d|Sigma|^{frac{1}{2}}gamma^d ]

    其中(V_d)是d维单位超球体的体积:

    [V_d=egin{cases}frac{pi^{frac{d}{2}}}{(frac{d}{2})!},&d 为偶数\ frac{2^dpi^{(frac{d-1}{2})}(frac{d-1}{2})!}{d!},d为奇数 end{cases}]

    如果多元高斯随机向量(f x)的协方差矩阵是对角矩阵,则(f x)的分量是相互独立的高斯分布随机变量。

    2.1 - 多变量高斯分布中马氏距离的2维表示

    上面式2.7是样本点(f x)与均值向量(f mu)之间的马氏距离。我们首先对(Sigma)进行特征分解,即(Sigma=f ULambda U^T),这里(f U)是一个正交矩阵,且(f U^TU=I)(fLambda)是特征值的对角矩阵。且:

    [{fSigma}^{-1}={f U^{-T}Lambda^{-1}U^{-1}}={f ULambda^{-1}U^T}=sum_{i=1}^dfrac{1}{lambda_i}{f u}_i{f u}_i^T ]

    这里({f u}_i)(f U)的第(i)列,包含了第(i)个特征向量。因此可以重写成:

    [egin{eqnarray}({f x-mu})^T{Sigma}^{-1}({f x-mu}) &=&({f x-mu})^Tleft(sum_{i=1}^dfrac{1}{lambda_i}{f u}_i{f u}_i^T ight)({f x-mu})\ &=&sum_{i=1}^dfrac{1}{lambda_i}({f x-mu})^T{f u}_i{f u}_i^T({f x-mu})\ &=&sum_{i=1}^dfrac{y_i^2}{lambda_i} end{eqnarray}]

    这里(y_i={f u}_i^T(f x-mu)),可以看出,当只选择两个维度时,即可得到椭圆公式 :

    [frac{y_1^2}{lambda_1}+frac{y_2^2}{lambda_2}=1 ]

    其中该椭圆的长轴与短轴的方向由特征向量而定,轴的长短由特征值大小而定。
    ps:所以得出结论,马氏距离就是欧式距离先通过(f mu)中心化,然后基于(f U)旋转得到的。

    2.2多变量高斯分布的最大似然估计

    假设有(N)个iid的高斯分布的样本即${f x}_i (~) cal N(f mu,Sigma)$,则该分布的期望和方差(这里是协方差):

    [hatmu=frac{1}{N}sum_{i=1}^N{f x}_i=overline{f x} ag{2.2.1} ]

    [egin{eqnarray}hat{Sigma} &=&frac{1}{N}sum_{i=1}^N({f x}_i-{foverline x})({f x}_i-{foverline x})^T\ &=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T-{f x}_i{f overline x}^T-{f overline x}{f x}_i^T+{f overline x}{f overline x}^T ight)\ &=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T ight)-2{f overline x}{f overline x}^T+{f overline x}{f overline x}^T\ &=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T ight)-{f overline x}{f overline x}^T end{eqnarray} ag{2.2.2}]

    为了求得他们的最大似然估计,需要预先知道如下知识:


    图2.2.1 书mlapp上公式4.10

    [{f x^TAx}=tr({f x^TAx})=tr({f xx^TA})=tr({f Axx^T}) ag{2.2.3} ]

    因为多元高斯分布可写成:

    [p(d|mu,Sigma)= frac{1}{{2pi}^{d/2}}*|Sigma^{-1}|^{1/2}*expleft[-frac{1}{2}({f x-mu})^T{Sigma}^{-1}({f x-mu}) ight] ag{2.2.4} ]

    [egin{eqnarray} scr L({f mu},Sigma) &=&log p(d|{f mu},Sigma)\ &=&0+frac{N}{2}log|{f Lambda}|-frac{1}{2}sum_{i=1}^N({{f x}_i-mu})^T{f Lambda}({{f x}_i-mu}) end{eqnarray} ag{2.2.5}]

    这里(f Lambda=Sigma^{-1})是协方差矩阵的逆矩阵,也就是精度矩阵。
    并假设({f y}_i={f x}_i-mu),采用链式求导法则,且按照图2.2.1第二个公式,得:

    [egin{eqnarray} frac{d}{dmu}left(frac{1}{2}({{f x}_i-mu})^T{Sigma}^{-1}({{f x}_i-mu}) ight) &=&frac{d}{d{f y}_i}left({f y}_i^TSigma^{-1}{f y}_i ight)frac{d{f y}_i}{dmu}\ &=&(Sigma^{-1}+Sigma^{-T}){f y}_i(-1)\ &=&-(Sigma^{-1}+Sigma^{-T}){f y}_i end{eqnarray}]

    (Sigma)是对称矩阵,所以:

    [egin{eqnarray} frac{d}{dmu}{scr L}(mu,Sigma) &=&0+frac{d}{dmu}left(-frac{1}{2}sum_{i=1}^N({{f x}_i-mu})^T{f Lambda}({{f x}_i-mu}) ight)\ &=&-frac{1}{2}sum_{i=1}^Nleft(-(Sigma^{-1}+Sigma^{-T}){f y}_i ight)\ &=&sum_{i=1}^NSigma^{-1}{f y}_i\ &=&Sigma^{-1}sum_{i=1}^N({f x}_i-mu)=0 end{eqnarray}]

    从而,多元高斯分布的期望为(hat mu=frac{1}{N}sum_{i=1}^N{f x}_i)

    因为
    (f A_1B+A_2B=(A_1+A_2)B)
    (tr({f A})+tr({f B})=tr(f A+B))
    所以
    (tr({f A_1 B})+tr({f A_2 B})=tr[(f A_1+A_2)B])
    通过公式2.2.3,且假定({f S}_mu=sum_{i=1}^N({{f x}_i-mu})({{f x}_i-mu})^T)可知公式2.2.5可表示成:

    [egin{eqnarray} scr L({f mu},Sigma) &=&log p(d|{f mu},Sigma)\ &=&0+frac{N}{2}log|{f Lambda}|-frac{1}{2}sum_{i=1}^Ntr[({{f x}_i-mu})({{f x}_i-mu})^T{f Lambda}]\ &=&frac{N}{2}log|{f Lambda}|-frac{1}{2}tr({f S_mu}{f Lambda}) end{eqnarray} ag{2.2.5}]

    所以:

    [frac{dscr L(mu,Sigma)}{d{f Lambda}}=frac{N}{2}{f Lambda^{-T}}-frac{1}{2}{f S}_mu^T=0 ]

    [{f Lambda^{-T}}={f Lambda^{-1}}=Sigma=frac{1}{N}{f S}_mu ]

    最后得到了多元高斯分布协方差的期望值为:
    (hat{Sigma} =frac{1}{N}sum_{i=1}^N({f x}_i-{fmu})({f x}_i-{fmu})^T)

    2.3 基于多元变量高斯分布的分类方法

    1 - 各个类别的协方差都相等(Sigma_{c_k}=Sigma):
    并且可以直观的知道:

    [p(X={f x}|Y=c_k,{f heta}) = {cal N}({f x|mu}_{c_k},Sigma_{c_k}) ag{3.1} ]

    ps:基于第(k)类基础上关于变量(f x)的概率,就是先挑选出所有(k)类的样本,然后再计算其多元高斯概率。且如果(Sigma_{c_k})是对角矩阵(即不同特征之间相互独立),则其就等于朴素贝叶斯。

    且可知对于多分类问题,给定一个测试样本其特征向量,预测结果为选取概率最大的那个类别:

    [egin{eqnarray}hat y({f x}) &=&argmax_{c_k}P(Y={c_k}|X={f x})\ &=&argmax_{c_k}frac{P(Y={c_k},X={f x})}{P(X={f x})} end{eqnarray} ag{3.2}]

    因为对于每个类别计算当前测试样本概率时,分母都是相同的,故省略,比较分子大的就行,也就是联合概率大的那个,从而式子3.2等价于:

    [hat y({f x})=argmax_{c_k}P(X={f x}|Y={c_k})P(Y={c_k}) ]

    而所谓LDA,就是当每个类别的协方差都相等,即(Sigma_{c_k}=Sigma),所以:
    (P(X={f x}|Y={c_k})=frac{1}{(2pi)^{d/2}|Sigma|^{1/2}}exp[-frac{1}{2}({f x-mu}_{c_k})^TSigma^{-1}({f x-mu}_{c_k})])
    (P(Y={c_k})=pi_{c_k})
    从而,可发现:

    [egin{eqnarray}P(Y={c_k}|X={f x}) quad &正比于& pi_{c_k}exp[-frac{1}{2}({f x-mu}_{c_k})^TSigma^{-1}({f x-mu}_{c_k})]\ &=&pi_{c_k}exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}+frac{1}{2}{f x}^TSigma^{-1}{f mu}_{c_k}+frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}]\ &=&pi_{c_k}exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}+{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}]\ &=&exp[{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}]exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}]\ &=&frac{exp[{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}]}{exp[frac{1}{2}{f x}^TSigma^{-1}{f x}]} end{eqnarray}]

    从而上式的分母又可以省略
    假定(gamma_{c_k}=-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}),而(eta_{c_k}=Sigma^{-1}{f mu}_{c_k})
    从而:

    [P(Y={c_k}|X={f x})=frac{exp({eta_{c_k}^T{f x}+gamma_{c_k})}}{sum_{k=1}^{|c|}exp({eta_{c_k}^T{f x}+gamma_{c_k})}}=S(eta)_{c_k} ]

    这里(eta=[{eta_{c_1}^T{f x}+gamma_{c_1}},{eta_{c_2}^T{f x}+gamma_{c_2}},...,{eta_{c_|c|}^T{f x}+gamma_{c_|c|}}]),可以发现它就是一个softmax函数,即:

    [S(eta)_{c_k}=frac{exp(eta_{c_k})}{sum_{k=1}^{|c|}exp(eta_{c_k})} ]

    softmax之所以这样命名就是因为它有点像max函数。
    对于LDA模型,假设将样本空间划分成n个互相独立的空间,则线性分类面,就是该分类面两边的类别预测概率相等的时候,即:
    (P(Y={c_k}|X={f x})=P(Y={c_k'}|X={f x}))
    (eta_{c_k}^T{f x}+gamma_{c_k}=eta_{c_k'}^T{f x}+gamma_{c_k'})
    ({f x}^T(eta_{c_k'}-eta_{c_k})=eta_{c_k'}-eta_{c_k})

    参考资料:
    [] 边肇祺。模式识别 第二版
    [] Machine learning A Probabilistic Perspective
    [] William.Feller, 概率论及其应用(第1卷)

  • 相关阅读:
    IfElseActivity
    Tracking_自定义跟踪服务
    CallExternalMethodActivity
    在VSS2005中建立工作流项目(1)
    入门篇(2):了解一下WF是如何运行的
    WorkflowInstance类
    写了一个例子
    一个简单的态机模式工作流演示(2)(代码与实现)
    在产品中为用户提供流程设计器
    WorkflowRuntime
  • 原文地址:https://www.cnblogs.com/shouhuxianjian/p/9773121.html
Copyright © 2011-2022 走看看