机器学习-聚类

zoukankan html css js c++ java

机器学习-聚类

K-MEANS算法：

基本思想

无监督问题，相似的归为一类。但是很难评估和调参。

1 将数据分成K个簇，

2 质心：均值，向量各维度取平均。

3 距离度量：欧式距离和余弦相似度（先标准化）

4 优化目标：min(sumCu(sumDist(c，x)²)) 从1到K个簇进行和，每个簇中，样本点到质心的距离求和。

工作流程

随机选取k个中心点。根据质心与样本距离分类

根据分类结果更新质心，重新计算质心与样本点的距离。不断迭代，直到样本点不变。

优缺点

简单快速，适合常规数据集。

K值很难确定，复杂度与样本呈线性相关。很难发现任意形状的簇（特殊形状）。初始值质心对结果影响巨大。

DBSCAN聚类算法

基本思想

核心对象：某个点的密度达到算法设置的阈值，minPS规定领域内有n个样本点。

阈值：设定邻域半径值r

直接密度可达：p在q的领域内，q是核心点，则品p-q直接密度计可达。

密度可达：间接的直接密度可达。p-k-q

边界点：邻域内没有样本。

噪声点：不属于任何一个簇。

参数选择

K距离，一般越小越好。

优缺点

不需要指定簇数，擅长找到特殊形状簇

高维数据有些困难，参数难以选择。Sklearn效率低

聚类评估：

轮廓系数

S(i) = b(i)-a(i) /max({a(i),b(i)})

a(i)：样本i到簇内样本的距离平均值。

b(i)：样本到其他簇内样本之间的距离的平均值。

S(i)接近1，则聚类效果越好。

S(i)接近-1，则聚类效果越差。

查看全文

相关阅读:
16平衡树
 15二叉检索树
 11用户权限
 10触发器
 8函数
 8存储过程
 linux下如何进入单用户模式
 RHEL6.4 字符模式下安装图形界面图文教程
 杂记
 Java内存管理(一)：深入Java内存区域

原文地址：https://www.cnblogs.com/2016-zck/p/14452926.html

机器学习-聚类

K-MEANS算法：

基本思想

工作流程

优缺点

DBSCAN聚类算法

基本思想

参数选择

优缺点

聚类评估：