统计基础
前言
机器学习须要深厚的数学基础,矩阵、统计、优化,这些都是基本功。勿在浮沙筑高台!所以在本文中将总结学习统计基础知识,夯实基础!
正态分布
正态分布在机器学习中有着重要的应用,在数学上有这样一个结论:依据中心极限定理,多个随机变量之和服从正态分布。
依据这个结论,在误差分析时,
能够觉得所产生的误差是多个独立同分布误差的叠加,因此终于的误差服从正态分布。
- 单变量正态分布
N(x|μ,σ2)=1(2πσ2)12exp{−12(x−μ)2}
当中,E(x)=μ ,var(x)=σ2 . - 多变量正态分布
N(X|μ,Σ)=1(2π)D21|Σ|12exp{−12(X−μ)TΣ−1(X−μ)}
当中,E(X)=μ 。var(X)=Σ 。Σ 是n 阶对称正定矩阵。 而Σ 是对称矩阵,所以存在正交矩阵T(T′=T−1) ,使得T′ΣT=Λ 。 当中Λ 是对角阵。其对角线上的元素λ1,λ2,...,λn 是Σ 的特征根。由于Σ 是正定的,故λ1,λ2,...,λn 都是正的。 - 高斯条件分布
对于联合分布N(X|μ,Σ) ,Λ=Σ−1 ,当中X=(xaxb),μ=(μaμb) 则条件分布的概率为Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb) p(Xa|Xb)=N(X|μa|b,Λ−1aa)
μa|b=μa−Λ−1aaΛab(Xb−Xa)
边际分布的概率为p(Xa)=N(Xa|μa,Σaa) - 若
X 服从N(μ,Σ) 。则Y=AX+b 服从N(Aμ+b,AΣA′) - 混合高斯分布
高斯分布是一个单峰模型,其对于多峰模型的描写叙述显然是不够的,所以引入了混合高斯分布。即多个高斯分布的凸组合p(x)=Σk=1KπkN(x|μk,Σk)
当中,Σk=1Kπk=1 ,0≤πk≤1
Γ 分布
Γ 函数
是阶乘在实数和复数上的扩展当Γ(t)=∫∞0xt−1e−xdx t 为正整数时Γ(t)=(t−1)! Γ 函数性质
Γ(t+1)=tΓ(t) Γ(1)=1 Γ(12)=π√ Γ 分布密度函数
f(x)=λαxα−1Γ(α)e−λx
称x 服从參数为α,λ 的Γ 分布,记为x Γ(α,λ) Γ 分布性质
Gamma分布中的參数α 称为形状參数(shape parameter),λ 称为尺度參数(scale parameter)。在实验中。它模拟如果随机变量X为 等到第α 件事发生所需之等候时间,α,λ 是两个分布调整參量。
E(x)=αλ σ2(x)=αλ2
Beta分布
- Beta函数
B(p,q)=Γ(p)Γ(q)Γ(p+q)=∫10xp−1(1−x)q−1dx - Beta分布密度函数
Beta(μ|p,q)=Γ(p+q)Γ(p)Γ(q)μp−1(1−μ)q−1=1B(p,q)μp−1(1−μ)q−1
其均值和方差例如以下所看到的:E(μ)=pp+q var(μ)=pq(p+q)2(p+q+1)
Beta分布是区间[0,1] 上的单峰分布,所以能够在某些情况下对数据进行非常好的描写叙述。比方,其可作为伯努利分布的贝叶斯參数预计时的先验分布。
Dirichlet分布
- 定义
当中Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αk)∏k=1Kμαk−1k α0=Σk=1Kαk - Beta分布与Dirichlet分布的关系
- Beta分布相应二项分布。Dirichlet相应多项分布
- Beta分布是Dirichlet分布的特例
指数族分布
- 定义
若x 的概率密度能够表示为则称此分布为指数族分布。当中。p(x|η)=h(x)g(η)exp{ηTu(x)} η 称为自然參数。u(x) 是x 的函数,g(η) 能够看作是归一化概率密度的參数。即g(η)∫h(x)exp{ηTu(x)}=1 - 实例
二项分布、多项分布、指数分布、Gamma分布等