zoukankan html css js c++ java

<数据挖掘导论>读书笔记9聚类分析

1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息，将数据对象分组。

其目标是组内的对象相互之间是相似的或者相关的，而不同组中的对象是不同的或者不相关的。

2.聚类分析的重要技术

K均值：K均值是基于原型的、划分的聚类技术。它试图发现用户指定个数k的簇(由质心代表)

　　SSE(Sum of Squared Error)误差的平方和

凝聚的层次聚类：

　　层次聚类常常使用树状图dendrogram，对于二维点的聚合，层次聚类也可以使用嵌套簇图。

单琏：MIN 全琏：MAX 组平均：GROUP AVERAGE

　　Ward方法：两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。

簇邻近度的LANCE-WILLIAMS公式

DBSCAN:是一种简单、有效的基于密度的聚类算法。

　　核心点

　　边界点

　　噪声点

3.簇评估

非监督簇评估

　　簇的凝聚性（紧凑性，紧致性）度量确定簇中对象如何密切相关

　　簇的分离线度量确定某个簇中不同于其他簇的地方。

非监督簇评估：使用临近度矩阵

查看全文

相关阅读:
向量积&&凸包算法
 K短路模板POJ 2449 Remmarguts' Date
[USACO]奶牛抗议（DP+树状数组+离散化）
[Uva1642]魔法Gcd（数论）
[NOIP2012]疫情控制（二分答案+倍增+贪心）
关于欧几里德算法（gcd）的证明
 旅行(LCA)
[NOIP2015]运输计划（树上差分+LCA+二分）
[USACO]奶牛博览会(DP)
24.基于groovy脚本进行partial update