zoukankan      html  css  js  c++  java
  • GMM算法k-means算法的比较

    1.EM算法
    GMM算法是EM算法族的一个具体例子。
    EM算法解决的问题是:要对数据进行聚类,假定数据服从杂合的几个概率分布,分布的具体参数未知,涉及到的随机变量有两组,其中一组可观测另一组不可观测。现在要用最大似然估计得到各分布参数。
    如果涉及的两组随机变量都是可观测的,问题就立即可以解决了,对似然函数求取最大值就能得到分布参数的解。
    EM算法先为所需求取的分布参数赋初值,使得能算出隐藏变量的期望;进而用隐藏变量的期望和可观测变量的数据对分布参数的似然函数求最大值,得到一组解从而更新分布参数。然后用更新过的分布参数算出隐含变量的期望,再用这个期望与可观测数据进行分布参数的更新...
    即:EM算法包括隐藏变量期望计算(E-step)和似然函数最大值计算(M-step)两个过程,一开始为分布参数赋一个初始值,然后迭代地执行E-step和M-step,直到算法收敛。

    2.GMM算法
    GMM算法作为EM算法族的一个例子,它指定了各个参与杂合的分布都是高斯分布,即分布参数表现为均值Mu和方差Sigma。通过EM算法作为计算使用的框架,迭代地算出各个高斯分布的参数。

    3.GMM和k-means的比较
    相同点
    都是迭代执行的算法,且迭代的策略也相同:算法开始执行时先对需要计算的参数赋初值,然后交替执行两个步骤,一个步骤是对数据的估计(k-means是估计每个点所属簇;GMM是计算隐含变量的期望;);第二步是用上一步算出的估计值重新计算参数值,更新目标参数(k-means是计算簇心位置;GMM是计算各个高斯分布的中心位置和协方差矩阵)
    不同点
    1)需要计算的参数不同:k-means是簇心位置;GMM是各个高斯分布的参数
    2)计算目标参数的方法不同:k-means是计算当前簇中所有元素的位置的均值;GMM是基于概率的算法,是通过计算似然函数的最大值实现分布参数的求解的。

  • 相关阅读:
    如何给 mongodb 设置密码
    Tips of Oracle
    Tips of Loadrunner
    Tips of 吞吐量
    压力逐渐加大 tps下降,响应时间没有变化,系统资源不饱和,为什么?【续】
    压力逐渐加大 tps下降,响应时间没有变化,系统资源不饱和,为什么?
    Tips:测试用例
    Tips:项目需求以及详细设计评审
    有关安全测试方面
    Tips of life
  • 原文地址:https://www.cnblogs.com/zjutzz/p/5083623.html
Copyright © 2011-2022 走看看