zoukankan      html  css  js  c++  java
  • 数据挖掘-聚类分析【1】

    本节内容:

    0:数据挖掘的常用方法

    1:什么是聚类----聚类是无监督学习

    2:聚合和分类的区别---事先定义的类型标记

    3:聚类结果的影响有哪些---量纲、行为准则、距离

    4:聚类分析的分类--根据x或特征值

    5:聚类分析的一般步骤

    6:聚类分析的案例

    7:聚类的原理--距离和相似度才划分聚类

    0:数据挖掘的常用方法

    一、什么是聚类

    • 聚类也称为聚类分析(某些应用中也称数据分割),指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。
    • 聚类得到的不同的组称为簇(cluster)
    • 早在孩提时代,人就通过不断改进下意识的聚类模式才学会如何区分猫和狗、动物和植物

    "物以类聚,人以群分"。对事务进行分类,是人们认识事务的出发点,也是人们认识世界的一种重要手段。

    无监督学习也称聚类分析,无监督学习源于许多研究领域,受到很多应用的推动。如:

    复杂网络分析中,人们希望发现具有内在紧密联系的社团
    在图像分析中,人们希望将图像分割成具有类似性质的区域
    在文本处理中,人们希望发现具有相同主题的文本子集
    .....
    这些情况都可以在适当的条件下归为聚类分析。
    

    二、聚类和分类的区别

    无监督学习和分类不同,没有事先定义的类型标记。

    --聚类所说的类不是事先给定的,而是根据数据的相似度和距离来划分

    --聚类的数目和结构都没有事先假定

    聚类分析的用途:

    • 可作单独的数据分析工具
    • 可作为其他方法的预处理手段

    聚类方法的目的是寻找数据中

    【1】潜在的自然分组结构 a  structure of "natural" grouping

    【2】感兴趣的关系  relationsship

    三、聚类结果的影响有哪些

    1:量纲(一般我们需要对数据进行标准化)

    2:聚类的行为准则

    3:距离测度

     

    四、聚类分析的分类

    根据样本的的X进行分类,或者是根据对X的n个特征值进行分类

    五、聚类分析的一般步骤

    六、聚类分析的案例

    七、聚类的原理

    原理:距离、相似度进行聚类

    明视距离:

    • 欧式距离
    • 曼哈段距离

    相似度:

    • 二元相似度
    • 向量相似度

     

     

     

  • 相关阅读:
    P2590 [ZJOI2008]树的统计(树链剖分)
    P4315 月下“毛景树”(树链剖分)
    P4092 [HEOI2016/TJOI2016]树(树链剖分+倍增LCA)(直接暴力好像最快)
    P4427 [BJOI2018]求和(倍增LCA、树链剖分)
    P3128 [USACO15DEC]Max Flow P(树链剖分)
    P3038 [USACO11DEC]Grass Planting G(树链剖分)
    高精度运算模板
    利用伪元素(:after)来清除浮动和画三角形
    什么是 daemon 与服务 (service)
    数据库系统简介
  • 原文地址:https://www.cnblogs.com/hero799/p/12080173.html
Copyright © 2011-2022 走看看