zoukankan      html  css  js  c++  java
  • 数据挖掘-聚类分析

    聚类分析是一种非监督的学习,分类是一种监督学习,就是用已经知道的类别的训练数据得到一个分类的模型,所以聚类与分类的主要区别在于是否需要预先定义好类别,也就是说聚类分析只是依靠数据本身来确定数据之间的关系的,所以聚类分析有很大的优越性特别是适合处理大量的原始的数据

    聚类分析方法的性能指标:1.可扩展性,2,自适应性,3,鲁棒性4,可解释性

    聚类使用的数据类是:数据矩阵 相异度矩阵  

    规范化是在中心化的基础上再做变换,确保变量的变化范围相等,常用的规范化方法有最大值归一化,总和规范化,均值标准差规范化 以及极差规范化

    聚类分析方法包括 基于划分的方法 基于分层的方法  基于密度的方法  基于网格的方法 基于模型的方法

    连续变量的距离需要满足自反性 对称性 正定性 以及三角不等式等条件,矩阵D是一个对称矩阵,且对角线上的元素是0.

    相似系数 应该满足自反性 对称性 归一化 满足三角不等式  

    基于分割的聚类方法:k-均值算法  k-中心值算法

    基于层次的聚了方法采用的是距离作为衡量聚类的标准    距离的度量的方法有:最小距离 最大距离 均值 等

    分为自底向上和自顶向下的方法:其中自底向上是将每个对象作为一个簇,通过不断的合并这些基本的簇形成较大的簇,知道满足条件为止 

    自顶向下是首先将所有的对象看陈是一个簇中的对象,然后根据一定的准则不断的进行分割这个簇形成更小的簇,从而完成聚类

    基于密度的聚类  主要饿算法有DBSCAN  OPTICS DENCLUE CLIQUE

    基于网格的聚类  主要得算法有STING WaveCluster CLIQUE  

    基于模型的聚类  主要有神经网络方法和统计学方法  

  • 相关阅读:
    python json.dumps() json.dump()的区别
    geopy 在python中的使用
    socket技术详解(看清socket编程)
    数据结构之各种数据结构插入、删除、查找的时间复杂度
    数组查找的时间复杂度正确表述
    各种排序算法时间复杂度
    MySQL将一张表的某些列数据,复制到另外一张表,并且修改某些内容
    Java虚拟机学习
    Java虚拟机学习
    java集合框架05——ArrayList和LinkedList的区别
  • 原文地址:https://www.cnblogs.com/fxd-address/p/4857338.html
Copyright © 2011-2022 走看看