zoukankan      html  css  js  c++  java
  • 数据挖掘-聚类分析【1】

    本节内容:

    0:数据挖掘的常用方法

    1:什么是聚类----聚类是无监督学习

    2:聚合和分类的区别---事先定义的类型标记

    3:聚类结果的影响有哪些---量纲、行为准则、距离

    4:聚类分析的分类--根据x或特征值

    5:聚类分析的一般步骤

    6:聚类分析的案例

    7:聚类的原理--距离和相似度才划分聚类

    0:数据挖掘的常用方法

    一、什么是聚类

    • 聚类也称为聚类分析(某些应用中也称数据分割),指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。
    • 聚类得到的不同的组称为簇(cluster)
    • 早在孩提时代,人就通过不断改进下意识的聚类模式才学会如何区分猫和狗、动物和植物

    "物以类聚,人以群分"。对事务进行分类,是人们认识事务的出发点,也是人们认识世界的一种重要手段。

    无监督学习也称聚类分析,无监督学习源于许多研究领域,受到很多应用的推动。如:

    复杂网络分析中,人们希望发现具有内在紧密联系的社团
    在图像分析中,人们希望将图像分割成具有类似性质的区域
    在文本处理中,人们希望发现具有相同主题的文本子集
    .....
    这些情况都可以在适当的条件下归为聚类分析。
    

    二、聚类和分类的区别

    无监督学习和分类不同,没有事先定义的类型标记。

    --聚类所说的类不是事先给定的,而是根据数据的相似度和距离来划分

    --聚类的数目和结构都没有事先假定

    聚类分析的用途:

    • 可作单独的数据分析工具
    • 可作为其他方法的预处理手段

    聚类方法的目的是寻找数据中

    【1】潜在的自然分组结构 a  structure of "natural" grouping

    【2】感兴趣的关系  relationsship

    三、聚类结果的影响有哪些

    1:量纲(一般我们需要对数据进行标准化)

    2:聚类的行为准则

    3:距离测度

     

    四、聚类分析的分类

    根据样本的的X进行分类,或者是根据对X的n个特征值进行分类

    五、聚类分析的一般步骤

    六、聚类分析的案例

    七、聚类的原理

    原理:距离、相似度进行聚类

    明视距离:

    • 欧式距离
    • 曼哈段距离

    相似度:

    • 二元相似度
    • 向量相似度

     

     

     

  • 相关阅读:
    < java.util >-- Set接口
    Codeforces 627 A. XOR Equation (数学)
    Codeforces 161 B. Discounts (贪心)
    Codeforces 161 D. Distance in Tree (树dp)
    HDU 5534 Partial Tree (完全背包变形)
    HDU 5927 Auxiliary Set (dfs)
    Codeforces 27E. Number With The Given Amount Of Divisors (暴力)
    lght oj 1257
    Codeforces 219D. Choosing Capital for Treeland (树dp)
    Codeforces 479E. Riding in a Lift (dp + 前缀和优化)
  • 原文地址:https://www.cnblogs.com/hero799/p/12080173.html
Copyright © 2011-2022 走看看