1 -单变量高斯分布
单变量高斯分布概率密度函数定义为:
[p(x)=frac{1}{sqrt{2pisigma}}exp{-frac{1}{2}(frac{x-mu}{sigma})^2} ag{1.1}
]
式中(mu)为随机变量(x)的期望,(sigma^2)为(x)的方差,(sigma)称为标准差:
[mu=E(x)=int_{-infty}^infty xp(x)dx ag{1.2}
]
[sigma^2=int_{-infty}^infty(x-mu)^2p(x)dx ag{1.3}
]
可以看出,该概率分布函数,由期望和方差就能完全确定。高斯分布的样本主要都集中在均值附近,且分散程度可以通过标准差来表示,其越大,分散程度也越大,且约有95%的样本落在区间((mu-2sigma,mu+2sigma))
2 - 多元高斯分布
多元高斯分布的概率密度函数。多元高斯分布的概率密度函数定义:
[p({f x})=frac{1}{(2pi)^{frac{d}{2}}|Sigma|^frac{1}{2}}exp{-frac{1}{2}({f x-mu})^T{Sigma}^{-1}({f x-mu})} ag{2.1}
]
其中({f x}=[x_1,x_2,...,x_d]^T)是(d)维的列向量;
({f mu}=[mu_1,mu_2,...,mu_d]^T)是(d)维均值的列向量;
(Sigma)是(d imes d)维的协方差矩阵;
({Sigma}^{-1})是(Sigma)的逆矩阵;
(|Sigma|)是(Sigma)的行列式;
((f x-mu)^T)是((f x-mu))的转置,且
[mu=E(f x) ag{2.2}
]
[Sigma=E{(f x-f mu)(f x - mu)^T} ag{2.3}
]
其中(mu,Sigma)分别是向量(f x)和矩阵((f x -mu)(f x -mu)^T)的期望,诺(x_i)是(f x)的第(i)个分量,(mu_i)是(mu)的第(i)个分量,(sigma_{ij}^2)是(sum)的第(i,j)个元素。则:
[mu_i=E(x_i)=int_{-infty}^infty x_ip(x_i)dx_i ag{2.4}
]
其中(p(x_i))为边缘分布:
[p(x_i)=int_{-infty}^inftycdotcdotcdotint_{-infty}^infty p({f x})dx_1dx_2 cdotcdotcdot dx_d ag{2.5}
]
而
[egin{eqnarray}sigma_{ij}^2
&=&E[(x_i-mu_i)(x_j-mu_j)]\
&=&int_{-infty}^inftyint_{-infty}^infty(x_i-mu_i)(x_j-mu_j)p(x_i,x_j)dx_idx_j
end{eqnarray} ag{2.6}]
不难证明,协方差矩阵总是对称非负定矩阵,且可表示为:
[Sigma=
egin{bmatrix}
sigma_{11}^2 & sigma_{12}^2 cdotcdotcdot sigma_{1d}^2 \
sigma_{12}^2 & sigma_{22}^2 cdotcdotcdot sigma_{2d}^2\
cdotcdotcdot &cdotcdotcdot\
sigma_{1d}^2 & sigma_{2d}^2 cdotcdotcdot sigma_{dd}^2
end{bmatrix}]
对角线上的元素(sigma_{ii}^2)为(x_i)的方差,非对角线上的元素(sigma_{ij}^2)为(x_i)和(x_j)的协方差。
由上面可以看出,均值向量(mu)有(d)个参数,协方差矩阵(sum)因为对称,所以有(d(d+1)/2)个参数,所以多元高斯分布一共由(d+d(d+1)/2)个参数决定。
从多元高斯分布中抽取的样本大部分落在由(mu)和(Sigma)所确定的一个区域里,该区域的中心由向量(mu)决定,区域大小由协方差矩阵(Sigma)决定。且从式子(2.1)可以看出,当指数项为常数时,密度(p(f x))值不变,因此等密度点是使指数项为常数的点,即满足:
[({f x}-mu)^T{Sigma}^{-1}({f x-mu})=常数 ag{2.7}
]
上式的解是一个超椭圆面,且其主轴方向由(sum)的特征向量所决定,主轴的长度与相应的协方差矩阵(Sigma)的特征值成正比。
在数理统计中,式子(2.7)所表示的数量:
[gamma^2=({f x}-mu)^T{Sigma}^{-1}({f x}-mu)
]
称为(f x)到(mu)的Mahalanobis距离的平方。所以等密度点轨迹是(f x)到(mu)的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。对应的M式距离为(gamma)的超椭球体积为:
[V=V_d|Sigma|^{frac{1}{2}}gamma^d
]
其中(V_d)是d维单位超球体的体积:
[V_d=egin{cases}frac{pi^{frac{d}{2}}}{(frac{d}{2})!},&d 为偶数\
frac{2^dpi^{(frac{d-1}{2})}(frac{d-1}{2})!}{d!},d为奇数
end{cases}]
如果多元高斯随机向量(f x)的协方差矩阵是对角矩阵,则(f x)的分量是相互独立的高斯分布随机变量。
2.1 - 多变量高斯分布中马氏距离的2维表示
上面式2.7是样本点(f x)与均值向量(f mu)之间的马氏距离。我们首先对(Sigma)进行特征分解,即(Sigma=f ULambda U^T),这里(f U)是一个正交矩阵,且(f U^TU=I),(fLambda)是特征值的对角矩阵。且:
[{fSigma}^{-1}={f U^{-T}Lambda^{-1}U^{-1}}={f ULambda^{-1}U^T}=sum_{i=1}^dfrac{1}{lambda_i}{f u}_i{f u}_i^T
]
这里({f u}_i)是(f U)的第(i)列,包含了第(i)个特征向量。因此可以重写成:
[egin{eqnarray}({f x-mu})^T{Sigma}^{-1}({f x-mu})
&=&({f x-mu})^Tleft(sum_{i=1}^dfrac{1}{lambda_i}{f u}_i{f u}_i^T
ight)({f x-mu})\
&=&sum_{i=1}^dfrac{1}{lambda_i}({f x-mu})^T{f u}_i{f u}_i^T({f x-mu})\
&=&sum_{i=1}^dfrac{y_i^2}{lambda_i}
end{eqnarray}]
这里(y_i={f u}_i^T(f x-mu)),可以看出,当只选择两个维度时,即可得到椭圆公式 :
[frac{y_1^2}{lambda_1}+frac{y_2^2}{lambda_2}=1
]
其中该椭圆的长轴与短轴的方向由特征向量而定,轴的长短由特征值大小而定。
ps:所以得出结论,马氏距离就是欧式距离先通过(f mu)中心化,然后基于(f U)旋转得到的。
2.2多变量高斯分布的最大似然估计
假设有(N)个iid的高斯分布的样本即${f x}_i (~) cal N(f mu,Sigma)$,则该分布的期望和方差(这里是协方差):
[hatmu=frac{1}{N}sum_{i=1}^N{f x}_i=overline{f x} ag{2.2.1}
]
[egin{eqnarray}hat{Sigma}
&=&frac{1}{N}sum_{i=1}^N({f x}_i-{foverline x})({f x}_i-{foverline x})^T\
&=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T-{f x}_i{f overline x}^T-{f overline x}{f x}_i^T+{f overline x}{f overline x}^T
ight)\
&=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T
ight)-2{f overline x}{f overline x}^T+{f overline x}{f overline x}^T\
&=&frac{1}{N}sum_{i=1}^Nleft({f x}_i{f x}_i^T
ight)-{f overline x}{f overline x}^T
end{eqnarray} ag{2.2.2}]
为了求得他们的最大似然估计,需要预先知道如下知识:
图2.2.1 书mlapp上公式4.10
[{f x^TAx}=tr({f x^TAx})=tr({f xx^TA})=tr({f Axx^T}) ag{2.2.3}
]
因为多元高斯分布可写成:
[p(d|mu,Sigma)= frac{1}{{2pi}^{d/2}}*|Sigma^{-1}|^{1/2}*expleft[-frac{1}{2}({f x-mu})^T{Sigma}^{-1}({f x-mu})
ight] ag{2.2.4}
]
[egin{eqnarray}
scr L({f mu},Sigma)
&=&log p(d|{f mu},Sigma)\
&=&0+frac{N}{2}log|{f Lambda}|-frac{1}{2}sum_{i=1}^N({{f x}_i-mu})^T{f Lambda}({{f x}_i-mu})
end{eqnarray} ag{2.2.5}]
这里(f Lambda=Sigma^{-1})是协方差矩阵的逆矩阵,也就是精度矩阵。
并假设({f y}_i={f x}_i-mu),采用链式求导法则,且按照图2.2.1第二个公式,得:
[egin{eqnarray}
frac{d}{dmu}left(frac{1}{2}({{f x}_i-mu})^T{Sigma}^{-1}({{f x}_i-mu})
ight)
&=&frac{d}{d{f y}_i}left({f y}_i^TSigma^{-1}{f y}_i
ight)frac{d{f y}_i}{dmu}\
&=&(Sigma^{-1}+Sigma^{-T}){f y}_i(-1)\
&=&-(Sigma^{-1}+Sigma^{-T}){f y}_i
end{eqnarray}]
且(Sigma)是对称矩阵,所以:
[egin{eqnarray}
frac{d}{dmu}{scr L}(mu,Sigma)
&=&0+frac{d}{dmu}left(-frac{1}{2}sum_{i=1}^N({{f x}_i-mu})^T{f Lambda}({{f x}_i-mu})
ight)\
&=&-frac{1}{2}sum_{i=1}^Nleft(-(Sigma^{-1}+Sigma^{-T}){f y}_i
ight)\
&=&sum_{i=1}^NSigma^{-1}{f y}_i\
&=&Sigma^{-1}sum_{i=1}^N({f x}_i-mu)=0
end{eqnarray}]
从而,多元高斯分布的期望为:(hat mu=frac{1}{N}sum_{i=1}^N{f x}_i)
因为
(f A_1B+A_2B=(A_1+A_2)B)
(tr({f A})+tr({f B})=tr(f A+B))
所以
(tr({f A_1 B})+tr({f A_2 B})=tr[(f A_1+A_2)B])
通过公式2.2.3,且假定({f S}_mu=sum_{i=1}^N({{f x}_i-mu})({{f x}_i-mu})^T)可知公式2.2.5可表示成:
[egin{eqnarray}
scr L({f mu},Sigma)
&=&log p(d|{f mu},Sigma)\
&=&0+frac{N}{2}log|{f Lambda}|-frac{1}{2}sum_{i=1}^Ntr[({{f x}_i-mu})({{f x}_i-mu})^T{f Lambda}]\
&=&frac{N}{2}log|{f Lambda}|-frac{1}{2}tr({f S_mu}{f Lambda})
end{eqnarray} ag{2.2.5}]
所以:
[frac{dscr L(mu,Sigma)}{d{f Lambda}}=frac{N}{2}{f Lambda^{-T}}-frac{1}{2}{f S}_mu^T=0
]
[{f Lambda^{-T}}={f Lambda^{-1}}=Sigma=frac{1}{N}{f S}_mu
]
最后得到了多元高斯分布协方差的期望值为:
(hat{Sigma}
=frac{1}{N}sum_{i=1}^N({f x}_i-{fmu})({f x}_i-{fmu})^T)
2.3 基于多元变量高斯分布的分类方法
1 - 各个类别的协方差都相等(Sigma_{c_k}=Sigma):
并且可以直观的知道:
[p(X={f x}|Y=c_k,{f heta}) = {cal N}({f x|mu}_{c_k},Sigma_{c_k}) ag{3.1}
]
ps:基于第(k)类基础上关于变量(f x)的概率,就是先挑选出所有(k)类的样本,然后再计算其多元高斯概率。且如果(Sigma_{c_k})是对角矩阵(即不同特征之间相互独立),则其就等于朴素贝叶斯。
且可知对于多分类问题,给定一个测试样本其特征向量,预测结果为选取概率最大的那个类别:
[egin{eqnarray}hat y({f x})
&=&argmax_{c_k}P(Y={c_k}|X={f x})\
&=&argmax_{c_k}frac{P(Y={c_k},X={f x})}{P(X={f x})}
end{eqnarray} ag{3.2}]
因为对于每个类别计算当前测试样本概率时,分母都是相同的,故省略,比较分子大的就行,也就是联合概率大的那个,从而式子3.2等价于:
[hat y({f x})=argmax_{c_k}P(X={f x}|Y={c_k})P(Y={c_k})
]
而所谓LDA,就是当每个类别的协方差都相等,即(Sigma_{c_k}=Sigma),所以:
(P(X={f x}|Y={c_k})=frac{1}{(2pi)^{d/2}|Sigma|^{1/2}}exp[-frac{1}{2}({f x-mu}_{c_k})^TSigma^{-1}({f x-mu}_{c_k})])
(P(Y={c_k})=pi_{c_k})
从而,可发现:
[egin{eqnarray}P(Y={c_k}|X={f x}) quad
&正比于& pi_{c_k}exp[-frac{1}{2}({f x-mu}_{c_k})^TSigma^{-1}({f x-mu}_{c_k})]\
&=&pi_{c_k}exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}+frac{1}{2}{f x}^TSigma^{-1}{f mu}_{c_k}+frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}]\
&=&pi_{c_k}exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}+{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}]\
&=&exp[{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}]exp[-frac{1}{2}{f x}^TSigma^{-1}{f x}]\
&=&frac{exp[{f mu}_{c_k}^TSigma^{-1}{f x}-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}]}{exp[frac{1}{2}{f x}^TSigma^{-1}{f x}]}
end{eqnarray}]
从而上式的分母又可以省略
假定(gamma_{c_k}=-frac{1}{2}{f mu}_{c_k}^TSigma^{-1}{f mu}_{c_k}+logpi_{c_k}),而(eta_{c_k}=Sigma^{-1}{f mu}_{c_k})
从而:
[P(Y={c_k}|X={f x})=frac{exp({eta_{c_k}^T{f x}+gamma_{c_k})}}{sum_{k=1}^{|c|}exp({eta_{c_k}^T{f x}+gamma_{c_k})}}=S(eta)_{c_k}
]
这里(eta=[{eta_{c_1}^T{f x}+gamma_{c_1}},{eta_{c_2}^T{f x}+gamma_{c_2}},...,{eta_{c_|c|}^T{f x}+gamma_{c_|c|}}]),可以发现它就是一个softmax函数,即:
[S(eta)_{c_k}=frac{exp(eta_{c_k})}{sum_{k=1}^{|c|}exp(eta_{c_k})}
]
softmax之所以这样命名就是因为它有点像max函数。
对于LDA模型,假设将样本空间划分成n个互相独立的空间,则线性分类面,就是该分类面两边的类别预测概率相等的时候,即:
(P(Y={c_k}|X={f x})=P(Y={c_k'}|X={f x}))
(eta_{c_k}^T{f x}+gamma_{c_k}=eta_{c_k'}^T{f x}+gamma_{c_k'})
({f x}^T(eta_{c_k'}-eta_{c_k})=eta_{c_k'}-eta_{c_k})
参考资料:
[] 边肇祺。模式识别 第二版
[] Machine learning A Probabilistic Perspective
[] William.Feller, 概率论及其应用(第1卷)