zoukankan      html  css  js  c++  java
  • <数据挖掘导论>读书笔记9聚类分析

    1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。

    其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的。

    2.聚类分析的重要技术

       K均值:K均值是基于原型的、划分的聚类技术。它试图发现用户指定个数k的簇(由质心代表)

    邻近度函数 质心 目标函数
    曼哈顿距离L1 中位数 最小化对象到其簇质心的L1距离和
    平方欧几里得距离L2平方 均值 最小化对象到其簇质心的L2距离的平方和
    余弦 均值 最大化对象与其簇质心的余弦相似度和
    Bregman散度 均值 最小化对象到其簇质心的Bregman散度和

      SSE(Sum of Squared Error)误差的平方和

      凝聚的层次聚类:

      层次聚类常常使用树状图dendrogram,对于二维点的聚合,层次聚类也可以使用嵌套簇图。

           单琏:MIN  全琏:MAX  组平均:GROUP AVERAGE

      Ward方法:两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。

           簇邻近度的LANCE-WILLIAMS公式

      DBSCAN:是一种简单、有效的基于密度的聚类算法。

      核心点

      边界点

      噪声点

    3.簇评估

    非监督簇评估

      簇的凝聚性(紧凑性,紧致性)度量确定簇中对象如何密切相关

      簇的分离线度量确定某个簇中不同于其他簇的地方。 

    非监督簇评估:使用临近度矩阵

  • 相关阅读:
    0601 新的冲刺
    0527 演示内容
    0525 项目回顾7.0
    0523 Scrum项目6.0
    0518 Scrum项目5.0
    Scrum 4.0
    0512 操作系统进程调度实验
    0511 backlog 项目管理
    复利计算器之单元测试
    操作系统的实验一实验报告
  • 原文地址:https://www.cnblogs.com/davidwang456/p/9698118.html
Copyright © 2011-2022 走看看