统计基础概念
在多元变量分析中,我们考虑所有的 (d) 个数值型属性 (X_1, cdots, X_d)。整个数据集是一个 (n imes d) 的矩阵,即(数据矩阵):
[D =
left[
egin{array}{c|llll}
& X_1 & X_2 & cdots & X_d \
hline
x_1^T & x_{11} & x_{12} & cdots & x_{1d} \
x_2^T & x_{21} & x_{22} & cdots & x_{2d} \
vdots & vdots & vdots & ddots & vdots \
x_n^T & x_{n1} & x_{n2} & cdots & x_{nd} \
end{array}
ight]
]
以上数据:
- 按照行来看,可以看作 (d) 维属性空间中的 (n) 个点或者向量
( x_i = (x_{i_1}, cdots, x_{id})^T in {Bbb R}^d ) - 按照列来看,可以看作 (n) 维属性空间中的 (d) 个点或者向量
( X_j = (X_{j_1}, cdots, X_{jd})^T in {Bbb R}^n )
从概率的角度,(d) 个属性可以建模为一个向量随机变量 (X = (X_1, X_2, cdots, X_d)^T),而点 (x_i) 可以看成从 (X) 中得到的随机样本,它们和 (X) 是独立同分布的。
均值
[egin{align}
mu = E[X] = left[
egin{array}{c}
E[X_1] \ E[X_2] \ vdots \ E[X_d]
end{array}
ight] = left[
egin{array}{c}
mu_1 \ mu_2 \ vdots \ mu_d
end{array}
ight] ag{均值向量} \
hat{mu} = frac{1}{n} sum_{i=1}^{n}x_i ag {样本均值}
end{align}
]
协方差矩阵
[Sigma = E[(X - mu)(X - mu)^T]
]
居中数据矩阵
[Z = D - 1 cdot hat{mu}^T
]
样本协方差矩阵
[hat{Sigma} = E[(X - hat{mu})(X - hat{mu})^T] = frac{1}{n - 1}; (Z^TZ)
]
总方差
[var(D) = tr(Sigma)
]
数据规范化
极差归一化
极差:(hat{r} = max{X_i} - min{X_i})
(X_i^{'} = frac{X_i - min{X_i}}{hat{r}})
标准差归一化
[hat{X} = frac{X - hat{mu}}{hat{sigma}}
]
高斯误差函数
[erf(x) = frac{2}{sqrt{pi}};int_0^xe^{-t^2}{
m d}t
]
应用
一元正态分布
随机变量 (X) 服从正态分布,均值为 (mu),方差为 (sigma^2),其概率密度函数可以描述为:
[f(x\,|\,mu, sigma^2) = frac{1}{sqrt{2pi sigma^2}} expleft{-frac{(x - mu)^2}{2 sigma^2}
ight}
]
给定区间 ([a, b]),在该区间上的正态分布的概率质量为:
[P(a leq x leq b) = int_a^b f(x\,|\,mu, sigma^2) {
m d} x
]
我们大都对于区间 ([mu - k sigma, mu + k sigma]) 比较感兴趣:
[P(mu - k sigma leq x leq mu + k sigma) = int_{mu - k sigma}^{mu + k sigma} f(x\,|\,mu, sigma^2) {
m d} x
]
我们令 (z = frac{x - mu}{sigma}),则上式可以化为:
[egin{align}
P(- k leq z leq k) &= frac{1}{sqrt{2pi}} int_{- k}^{k} e^ {- frac{1}{2}{z^2}} {
m d}z \
&= frac{2}{sqrt{2pi}} int_{0}^{k} e^ {- frac{1}{2}{z^2}} {
m d}z \
&= frac{2}{sqrt{pi}} int_{0}^{frac{k}{sqrt{2}}} e^{- t^2} {
m d}t \
&= erf(frac{k}{sqrt{2}})
end{align}
]
多元正态分布
若 (X = (X_1, X_2, cdots, X_d)) 服从多元正态分布,均值为 (f mu),协方差矩阵为 (f Sigma),则其联合多元概率密度函数为:
[f(x\,|\,mu, Sigma) = frac{1}{sqrt{2pi}^d {sqrt{|{Sigma}|}}} expleft{-frac{(x - mu)^T{Sigma}^{-1}(x - mu)}{2}
ight}
]
马氏距离
[(x - mu)^T{Sigma}^{-1}(x - mu)
]