聚类之k-means - 走看看

zoukankan html css js c++ java

聚类之k-means

1、介绍

k-means算法以k为参数（所期望的簇的个数），把n个对象分成k个簇（单层划分），用质心（数据点的平均值）定义簇的原型。使得簇内具有较高的相似度，而簇间的相似度较低。

通过聚类，我们能够发现数据对象之间的关系。簇内的相似度越高，簇间的相似度越低，聚类效果越好。

2、过程

①随机选择k个点作为初始的聚类中心。

②对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇，形成k个簇。

③对每个簇，计算所有点的均值作为新的聚类中心。

④重复②、③，直到聚类中心不再改变。

3、缺点

①可能收敛于局部最小值，在大规模数据中收敛较慢。

②k值需要预先给定，属于先验知识。

③对初始选取的聚类中心敏感。这会导致①。

④并不适合所有的数据类型，比如不能处理非球形簇。

⑤对含离群点的数据处理时存在问题。

为了克服k-means收敛于局部最小值的问题，可以采用二分k-means(bisecting K-means).

4、优化方法

1、bisecting K-means

①将所有样本看成一个簇。

②当簇小于k时，对于每个簇i，计算总误差，在簇i上进行2-means聚类，再计算该簇划分为两个簇后的总误差，选择误差最小的簇进行划分。

查看全文

相关阅读:
Data Base mysql备份与恢复
 java 乱码问题解决方案
 【知识强化】第二章物理层 2.1 通信基础
 【知识强化】第二章进程管理 2.2 处理机调度
 【知识强化】第二章进程管理 2.1 进程与线程
 【知识强化】第一章操作系统概述 1.3 操作系统的运行环境
 【知识强化】第一章网络体系结构 1.1 数据结构的基本概念
 【知识强化】第一章网络体系结构 1.2 计算机网络体系结构与参考模型
 【知识强化】第一章网络体系结构 1.1 计算机网络概述
 【知识强化】第一章操作系统概述 1.1 操作系统的基本概念

原文地址：https://www.cnblogs.com/ivan-count/p/10515755.html

Copyright © 2011-2022 走看看