zoukankan      html  css  js  c++  java
  • K-means聚类算法

    K-means聚类算法(K-平均/K-均值算法)是最为经典也是使用最为广泛的一种基于距离的聚类算法。基于距离的聚类算法是指采用距离作为相似性量度的评价指标,也就是说当两个对象离得近时,两者之间的距离比较小,那么它们之间的相似性就比较大。

    算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类(又称簇)紧凑且独立。

    K-means聚类算法的缺点:对于离群点是敏感的,一个很大极端值的数据对象可能会显著地扭曲数据的分布。
     

    常见的相似度/距离评价准则有:

    • 欧几里得距离

    其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

    • 曼哈顿距离

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

    • 闵可夫斯基距离

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

     

    聚类性能评价准则:

    K-means聚类算法通常使用误差平方和准则函数(等同于欧几里得距离)来评价聚类性能。给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含K个聚类子集X1,X2,…XK;各个聚类子集中的样本数量分别为n1,n2,…,nk;各个聚类子集的均值代表点(也称聚类中心)分别为m1,m2,…,mk。

    • 误差平方和准则函数公式

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

    常ç¨æ°æ®ææç®æ³ä»å¥é¨å°ç²¾é 第äºç« <wbr> K-meansèç±»ç®æ³

    K-means聚类算法实例

    初始数据集,共5条记录,每条数据记录包含两个属性x和y。

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

    作为一个聚类分析的二维样本,要求的簇的数量K=2。

    常用数据挖掘算法从入门到精通 第二章 K-means聚类算法

     
     
    学习参考:

    https://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html#!comments示例计算有误,思路没问题。

    https://www.toutiao.com/i6451161136644489742/加了对数据[0,1]规格化处理的环节,中心思想还是一样的。

    https://blog.csdn.net/leaf_zizi/article/details/82684921文本聚类,可以做舆情信息汇总,分词软件rost cm6。

    https://www.toutiao.com/i6452271711302713870/K-medoids聚类,K-means基础上的改良。对小数据集有效。
  • 相关阅读:
    目录 —— C语言数据结构与算法分析
    目录 —— STM32裸机
    目录 —— FreeRTOS
    常用存储器介绍
    DMA(Data Memory Access)直接存储器访问
    命令
    文件数据流向
    野指针产生的原因
    内存四区
    SVG 是什么?
  • 原文地址:https://www.cnblogs.com/myshuzhimei/p/11724276.html
Copyright © 2011-2022 走看看