这个暂时还不太明白,先写一点明白的。
EM:最大期望算法,属于基于模型的聚类算法。是对似然函数的进一步应用。
我们知道,当我们想要估计某个分布的未知值,可以使用样本结果来进行似然估计,进而求最大似然估计就可以估计出要求的参数。
但是有时候还会有未知参数,这样就不能使用极大似然估计。当然这个参数与我们要估计的参数是有关联的。
比如说调查 男生 女生身高的问题。身高肯定是服从高斯分布。以往我们可以通过对男生抽样进而求出高斯分布的参数,女生也是,但是如果我们只能知道某个人的高度,却不能知道他是男生或者女生(隐含变量),这时候就无法使用似然函数估计了。这个时候就可以使用EM方法。
分为E和M两步:
在E步的时候首先通过随机赋值一个我们要求的参数,然后求出另外一个隐含参数的后验概。
在M步的时候用求出来的隐含参数的后验概率进行对传统的似然函数估计,对要求参数进行修正。迭代直到前后两次要求的参数一样为止。