什么是高斯分布与高斯分布的广泛性
高斯分布, Gaussian Distribution, 也叫自然分布或正态分布,Natural Distribution。
从它的名字--natural distribution中也可以看出它的广泛性:正常情况下, 你就应该是这个分布。
那么为什么到处都有它呢?概率论中的中心极限定理可以说明为什么:在客观实际中有许多随机变量, 它们是由大量的相互独立的随机因素的综合影响所形成的。而每个随机因素在总的影响中都是微小的。这些变量的分布往往可以用正态分布来逼近。 考虑到现实世界的复杂情况也就能理解自然分布的广泛性了。它最先由高斯发现在1809年发现。
单元高斯分布
这里的单元不是指一个单元,两个单元, 而是单变量的意思,single variet. 单变量正态分布的概率密度函数:(phi (x) = frac {1}{sqrt {2pi}sigma}e^{-frac {(x-mu)^2}{2sigma^2}})
其中(mu, sigma^2)分别为(x)的期望与方差。知道这两个参数后, 这个正态分布可以表示为$ N(mu, sigma^2)$.
由一个特殊的积分:
(mu) 在这里就不再是一个标量了, 而是一个(d)维列向量;(Sigma)是样本的协方差矩阵, (d imes d). (|Sigma|)与(Sigma^{-1})分别是它的行列式值与逆矩阵。一个多元高斯分布可以看作一个标准向量(mu)受到自然污染后的取值的分布。
(Sigma)的计算方式为:
- 均值化处理:从所有样本向量中分别减去(mu), 即 (z = x - mu)
- (Z) 为所有 (z) 组成的(m imes d)矩阵
- (Sigma = Z^TZ).
高斯分布的线性变换与投影
多个正态分布的线性组合可以形成新的线性分布。(A)为(d imes k)矩阵,(Y = A^TX)通过对多元正态分的随机变量(X)进行线性变换得到一个新的正态分布随机变量(Y = N (Amu, A^TSigma A)). 若$k =1 $, 即 (p = A) 为一个(d) 维列向量, (Y = p^TX)代表将(X)往(p)所在的直线方向上进行投影。(p^TSigma p) 代表(X)在这个投影方向上的方差, 这个值越大, 代表原样本集在这个方向上分散的越开。这一点在PCA算法中会使用到。