zoukankan      html  css  js  c++  java
  • ML_Review_GMM(Ch10)

    Note sth about GMM(Gaussian Mixtrue Model)
    高斯混合模型的终极理解
    高斯混合模型(GMM)及其EM算法的理解
    这两篇博客讲得挺好,同时讲解了如何解决GMM参数问题的EM算法,其实GMM式子没有什么高深的地方,都是概率论的东西,主要是构思比较巧妙。

    动机:
     GMM是用来拟合某种分布的。哪种?任意一种!当然,前提是参数足够多的情况下,所以实作其实并非拟合任意模型。那么一般什么样的模型会被GMM较好拟合?首先,我们思考一下一维的高斯分布(即正态分布),然后我们思考一下二维的,三维的……会发现,高斯分布在二维类似椭圆,三维类似椭球,而这也是我理解它为什么说可以拟合任意分布的原因。因为椭圆(我们从二维来说),其实就是实轴(a)和虚轴(b)决定的一种图形,那么如果$a=b$就世缘,而如果$a gg b$或者$a ll b$,其实就非常得趋近于直线了。当然这是一个高斯分布的情况,而GMM本质就是混合(Mixtrue)了很多的高斯分布(Gaussian Model),然后保证权重和为1即可(单高斯分布也可看成是GMM的特殊情况,即某个权重为1,其余均为0)。
     GMM算法过程没什么描述,流程就在公式里,本质就是用多个高斯分布的和去拟合我们目前拿到的样本数据(TrainingData)。

    GMM算法公式概述:只打GMM的部分公式,EM的实在太长了,但强烈建议纸上手推
    高斯混合模型的概率密度函数:
    $$ p(y| heta) = sum_{k=1}^{K} alphaphi(y| heta_k) $$
    where
    $$ phi(y| heta_k) Leftrightarrow phi(y| heta_k) = frac{1}{sqrt{2pi}sigma_k} exp(-frac{(y-mu_k)2}{2sigma_k2}) $$
    $$ alpha geq 0 quad andquad sum_{k=1}^{K}alpha_k = 1, qquad heta_k = (mu_k, heta_k) $$
    顺带写一写对其做极大似然估计的过程:
    $$ p(x; heta) = sum_{k=1}^{K} pi_kN(x;mu_i,sigma_k) qquad s.t.quad sum_{k=1}^{K} pi_k=1 $$
    $$ P(x; heta) = prod_{i=1}^{N}p(x_i; heta) $$
    $$ lnP(x; heta) = sum_{i=1}^{N} ln( sum_{k=1}^{K}pi_kN(xi; heta_k) ) $$
    This formula, you will get ;_; if you try to caculate it's gradient, because it need reduction of fractions to a commomn denominator.It may make you mad,at least it made me mad.

    细节理解:
     1、为何$sum_{k=1}{K} alpha_k=1$,因为概率密度函数的定义域内积分要为1,显然GMM必须满足这个性质,而分配权重和为1,就可以满足这个性质,因为求积分可以分开求,最后累加,而每个分布的积分都是1,乘以和为1的权重,最后和才会为1。
     2、为何需要EM算法,MLE不可以么?其实是先尝试过MLE,就会发现需要EM,因为在做MLE(手写)的时候会遇到一个问题(其实就是求出似然函数之后,取完对数发现需要求导的部分是$sum ln (sum)$这种形式,显然求导非常难算,可以简单想想,分式,或许需要通分,然后有N个式子。。。)。第一篇之中的“第二个细节”就是说的这个问题。
     3、其实细想可以发现,在用EM的时候的一个假设很玄妙,他假设每个样本都是被GMM多个高斯分布结果中的某一个产生的,这样的假设合理么?合理——因为好算,因为我们可以加大参数让每个都拟合(可以拟合任意分布。。。)不合理——显然现实中决定某种事物出现的因素往往都是不唯一的。(虽然高斯分布已经是考虑了诸多微小影响之下的一种分布,我记得课本写过(大致意思):在譬如人的心情、人的操作失误、气温等一系列微小影响下,样本可以看作是服从正态分布的)。不得不说,GMM作为一种方法做到了很好的效果和深度(拟合任意分布),但是个人总觉得会遇一些极端情况。但是也想通了一点——本来就是预测,意外样本就是降低准确率的来源,哪有100%的预测。(不然不就每个人都去买股票致富了)

  • 相关阅读:
    iOS 进阶 第一天(0323)
    iOS 基础 第五天(0811)
    iOS 基础 第四天(0809)
    iOS 基础 第三天(0808)
    iOS 基础 第三天(0807)
    iOS 基础 第二天(0805)
    iOS 基础 第一天(0804)
    Mac 启用http-dav功能(WebDAV服务器)
    【转】phpmyadmin万能密码漏洞
    关于python文件操作 (转载)
  • 原文地址:https://www.cnblogs.com/FormerAutumn/p/11038398.html
Copyright © 2011-2022 走看看