划分聚类是聚类分析中最常用的一种聚类算法,对于其研究的论文也是多如牛毛。聚类算法之划分法大致分为三种,一是k-means算法,二是k-medoids算法,三是大型数据库划分法。
k-means算法
有大牛解释的非常清楚,就不自己敲了。
转自JerryLead,http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html
k-means算法的优点:
- 聚类经典算法,简单,快速
- 对处理大数据集,相对可伸缩,高效率
- 复杂度O(nkt),n是所有对象数,k是簇的数目,t是迭代次数,通常k<<n,t<<n
- 当簇密集,簇与簇之间的区别明显时效好
缺点:
- 在簇的平均值被定义的情况下才能使用
- 必须事先给出k(要生成的簇的数目)
- 对干扰(噪声,孤立点等)数据很敏感