zoukankan      html  css  js  c++  java
  • 2017.06.29数据挖掘基础概念第十,十一章

    第十章
    63、什么是聚类分析
    一个把数据对象划分成子集的过程。每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。
    64、数据挖掘对聚类的要求
    1、可伸缩性 2、处理不同属性类型的能力 3、发现任意形状的簇
    4、对于确定输入参数的领域知识的要求 5、出来噪声数据的能力
    6、增量聚类和对输入次序不敏感 7、聚类高维数据的能力 8、基于约束的聚类
    9、可解释性和可用性 10、划分准则 11、簇的分离性
    12、相似性度量 13、聚类空间
    65、基本聚类的方法
    1、划分方法 2、层次方法 3、基于密度的方法 4、基于网格的方法
    66、聚类方法的一般特点
    划分方法:1、发现球形互斥的簇 2、基于距离
    3、可以用均值或中心点等代表簇中心 4、对中小规模数据集有效
    层次方法:1、聚类是一个层次分解 2、不能纠正错误的组合和划分
    3、可以集成其他的技术,如微聚类或考虑对象‘连接’
    基于密度的方法:1、可以发现任意形状的簇 2、可能过滤离群点
    3、簇是对象空间中被低密度区域分隔的稠密区域
    4、簇密度:每个点的“邻域”内必须具有最少个数的点
    基于网格的方法:1、使用一种多分辨率网格数据结构 2、快速处理
    67、怎样提高k—均值算法的可伸缩性
    一种使用k—均值在大型数据集上更有效的方法是在聚类时使用合适规模的样本,另一种是使用过滤的方法,使用空间层次数据索引节省计算均值的开销。第三种方法利用微聚类的思想,首先把邻近的对象划分到一些“微簇”中,然后对这些微簇使用k—均值方法进行聚类。
    68、哪种方法更鲁棒,k—均值还是k—中心点
    当存在噪声和离群点时k—中心点方法比k—均值更鲁棒,这是因为中心点不像均值那样容易受离群点或其他极端值影响,然而,当n和k较大时,k—中心计算的花销变得相当大,远高于k—均值。这两种方法都要求用户指定簇数k。
    69、如何使用以核心对象为中心的小稠密区域装配一个大稠密区域(P307理解过程)
    第11章(P323-325自己看理解)
    第12章
    70、什么是离群点
    一个数据对象,它显著不同于其他数据对象,好像它被不同的机制产生一样

  • 相关阅读:
    浅谈样式表QSS的应用
    从一个笑话看软件开发管理(转帖)
    项目的大小衡量标准,项目架构的方法(填空架子,持续集成,边开发边测试效果)(装贴)
    做项目过程一点心得
    什么时候该写函数,什么时候该写类。
    QWidget属性,函数的学习
    Qt 中一些常用类中文说明
    swing应用中如何保存一个全局变量
    Implicit Linking与Explicit Linking
    qt中设置菜单高度
  • 原文地址:https://www.cnblogs.com/hqutcy/p/7096625.html
Copyright © 2011-2022 走看看