zoukankan      html  css  js  c++  java
  • 201119西瓜书系列博客---9、聚类任务

    201119西瓜书系列博客---9、聚类任务

    一、总结

    一句话总结:

    9.1、聚类任务;9.2、性能度量;9.3、距离计算
    9.4、原型聚类:以原型方式聚类
    9.5、密度聚类:以密度方式聚类
    9.6、层次聚类:以层次方式聚类

    1、【9.1、聚类任务】?

    聚类试图将数据集中的【样本划分为若干个通常是不相交的子集】,每个子集称为一个簇(cluster)。但需注意的是,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
    聚类【既能作为一个单独的过程】,用于寻找数据内在的分布结构,【也可作为分类等其他学习任务的前驱过程】。

    2、【9.2、性能度量】?

    聚类性能度量也称【聚类有效性指标(validity index)】,与监督学习中的【性能度量】作用类似。
    对于聚类,一般通用的度量标准为“物以类聚”,即:【簇内相似度高且簇间相似度低】。

    3、【9.2、性能度量】 两类性能度量?

    【外部指标】:将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较
    【内部指标】:直接考察聚类结果而不利用任何参考模型

    4、【9.3、距离计算】 根据属性的性质选择采用的距离?

    【有序属性】:如{小,中,大},“小”与“中”较近,与“大”较远。显然,闵可夫斯基距离可用于有序属性。
    【无序属性】:如{飞机,火车,轮船}这样的离散属性则不能直接在属性上直接计算距离,称为无序属性。
    【混合属性(有序+无序:闵可夫斯基距离和VDM结合)】

    5、【9.4、原型聚类】 ?

    原型:【样本空间中具有代表性的点】
    原型聚类也称基于原型的聚类(prototype-based clustering),【此类算法假设聚类结构能通过一组原型刻画】。采用不同的原型表示、不同的求解方式,将产生不同的算法。

    6、【9.4、原型聚类】 学习向量量化?

    学习向量量化(Learning Vector Quantization,LVQ)同k-means聚类类似,也是试图【找到一组原型向量来刻画聚类结构】。
    不同的是,LVQ针对于【带有类别标记的数据样本】,学习过程利用【样本的监督信息】(类别标记)来辅助聚类。

    7、【9.4、原型聚类】 高斯混合聚类?

    与k-means、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用【概率模型】来表达聚类原型。

    8、【9.5、密度聚类】 ?

    密度聚类也称【基于密度的聚类】,此类算法假设聚类结构能通过【样本分布的紧密程度确定】(原型聚类是假设聚类结构能够通过一组【原型刻画】)。
    通常情况下,密度聚类算法【从样本密度角度】来考察样本间的【可连接性】(密度直达,密度可达,密度相连),并基于可连接样本来不断拓展聚类簇。

    9、【9.6、层次聚类】?

    层次聚类试图在【不同层次】对数据集进行划分,从而形成【树形的聚类结构】。
    对于数据集的划分,层次聚类通常有两种策略:【自底向上的聚合策略】、【自上而下的分拆策略】

    二、201119西瓜书系列博客---9、聚类任务

    转自或参考:https://blog.csdn.net/shichensuyu/article/details/94552906

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    O2O、B2B、C2C(通俗讲解)
    前端 $.parseJson()
    django反向解析传参
    从url(地址栏)获取参数:Jquery中getUrlParam()方法的使用
    Django:前后端分离后联调给前端传数据
    xpath 中 [<Element a at 3985984dj343>]
    sumafan:python爬虫多线程爬取数据小练习(附答案)
    window安装mysql(详细步骤)
    sqlserver从xlsx读取数据
    第一个kotlin程序
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/14015182.html
Copyright © 2011-2022 走看看