- 聚类
- 例子
- 流聚类
- 例子
聚类
MLlib支持k-means聚类,一种最常用的聚类方法,将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种,叫做kmeansII。MLlib的实现包括以下参数:
- k 设定的聚类数目
- maxIterations 最大循环册数
- initializationMode 随机初始化或使用k-meansII初始化
- runs k-means算法运行册数(k-means不能保证找到全局最优,如果在给定的数据集上运行多次,返回最好的结果)
- initializationSteps k-meansII算法的步骤数
- epsilon k-means的收敛阈值
流聚类
当数据作为流到达时,簇应该被动态估计。MLlib提供了支持流的k-means聚类,使用参数控制估计延迟(或忽略)。算法使用小批量k-means更新规则,针对每一批数据,将他们分配给离他们最近的簇,计算新的簇中心, 然后用
( c_{t+1}=frac{c_t n_t alpha + x_t m_t}{n_t alpha + m_t} )
( n_{t+1} = n_t + m_t )
更新每个簇。