zoukankan      html  css  js  c++  java
  • 2017.06.29数据挖掘基础概念第二.三章

    第二章
    21、研究的属性类型
    标称属性:值是一些符号或事物的名称,代表某种类型、编码或状态
    二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性
    序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的
    数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)
    22、数据散布常见的度量量(数据如何分散的方法/识别离群点)
    极差 四分位数、四分位数极差、五数概括图、方差和标准差
    23、审视数据的图形
    条形、饼图、线图、分位数图、分位数—分位数图、直方图和散点图
    24、数据的可视化
    1、基于像素的可视化
    2、几何投影可视化技术
    3、基于图符的可视化技术:(1)切尔诺夫脸 (2)人物线条画
    4、层次可视化技术
    5、可视化复杂对象和关系
    第三章
    25、数据质量涉及的因素:
    1、准确性、完整性、一致性、时效性、可信性和可解释性
    26、数据预处理的主要任务:
    1、数据清理 2、数据集成 3、数据规约 4、数据转换
    27、处理缺失值得方法:
    1、忽略元组 2、人工填写缺失值 3、使用一个全局常量填充缺失值
    4、使用属性的中心(如均值或中位数)填充缺失值
    5、使用与给定元组属同一类的所有样本的属性均值或中位数
    6、使用最可能的值填充缺失值
    28、光滑数据,去掉噪声(也用于数据离散化和数据规约)
    1、分箱:通过考察数据的“邻近”来光滑有序数据值
    2、回归:用一个拟合函数来光滑数据
    3、离群点分析:通过如聚类来检测离群点
    29、数据清理过程
    1、第一步偏差检测
    2、偏差检测和数据变换(纠正偏差)的两步迭代执行
    3、新的数据清理方法加强交互性
    4、开发数据变换操作的规范说明语言
    30、数据归约策略(可以用来得到数据集的归约表示,但仍接近于保持原始数据的完整性)
    1、维归约:减少所考虑的随机变量或属性个数
    2、数量归约:用替代的、较小的数据形式替换原数据
    3、数据压缩:使用变换,以得到原数据的归约或“压缩”表示
    31、离散小波变换(DWT)与离散傅里叶变换有密切关系
    DFT是一种涉及正弦和余弦的信号处理技术。然而,一般地说,DWT是一种更好的有损压缩,对于给定的向量,如果DWT与DFT保留相同数目的系数,则SWT将提供原数据更准确的近似。因此对于相同的近似,SWT需要的空间比DFT小。与DFT不同,小波空间局部性相当好,有助于保留局部细节。
    32、离散小波变换过程
    1、输入数据向量的长度必须是2的整数幂
    2、每个变换涉及应用两个函数
    3、两个函数作用于X中的数据点对
    4、两个函数递归地作用于前面循环得到的数据集,直到得到的结果数据集的长度为2
    5、由以上迭代得到的数据集中选择的值被指定为数据变换的小波系数
    33、主成分分析的基本过程
    1、对输入数据规范化,使得每个属性都落入相同的区间。
    2、PCA计算k个标准正交向量,作为规范化输数据的基
    3、对主成分按“重要性”或强度降序排序
    4、既然主成分根据“重要性”降序排序,因此可以通过去掉较弱的成分来归约数据
    34、属性子集选择定义、目标、优点
    定义:通过删除不相关或冗余的属性(或维)减少数据量。
    目标:找出最小属性集
    优点:减少了出现在发现模式上的属性数目,使得模式更易于理解
    35、属性子集选择的基本启发式方法包括的技术
    1、逐步向前选择 2、逐步向后选择
    3、逐步向前选择和逐步向后删除的组合 4、决策树归纳
    36、数据变换以及策略
    数据变换:数据被变换或统一成适合于挖掘的形式
    策略: 1、光滑 2、属性构造 3、聚集 4、规范化 5、离散化
    6、有标称数据产生概念分层
    37、数据的离散化方法
    1、通过分箱离散化 2、通过直方图离散化 3、通过聚类、决策树和相关分析离散化
    38、四种标称数据概念分层产生方法
    1、由用户或专家在模式级显示地说明属性的部分序
    2、通过显示数据分组说明分层结构的一部分
    3、说明属性集但不说明他们的偏序
    4、只说明部分属性集

  • 相关阅读:
    创建github怎样管理
    端口号的作用
    正则
    分布式代码管理github
    实现MVC
    AngularJS核心特性(四大点)
    什么是跨域,什么是同源
    rem怎么计算
    正则须知(以后还会添加)
    LA 6448 Credit Card Payment
  • 原文地址:https://www.cnblogs.com/hqutcy/p/7096618.html
Copyright © 2011-2022 走看看