zoukankan      html  css  js  c++  java
  • 《数据挖掘导论》读书笔记(三)—— 探索数据

    书名:数据挖掘导论(Introduction to Data Mining)
    作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
    出版社: 人民邮电出版社
    译者: 范明 / 范宏建
    出版年: 2010-12-10
    ISBN: 9787115241009

    第3章 探索数据

    鸢尾花数据集

    • 数据来源
      加州大学欧文分校(UCI)机器学习库鸢尾花数据集
    • 数据介绍
      包含150种鸢尾花信息,每50种取自三个鸢尾花品种之一:Setosa、Versicolour、Virginica。
      花的特征有以下五种:
      1. 萼片长度(厘米)
      2. 萼片宽度(厘米)
      3. 花瓣长度(厘米)
      4. 花瓣宽度(厘米)
      5. 类(Setosa、Versicolour、Virginica)

    汇总统计

    汇总统计(summary statistics)是量化的(如均值和标准差),用单个数或数的小集合表示可能很大的值集的各种特征。

    频率和众数

    考虑m个对象,这m个对象具有属性x,x的取值集合为{v1,...,vi,...,vk}。
    则vi对应的频率: frequency(vi) = 具有属性vi的对象数/m
    分类属性的众数(mode)是具有最高频率的值。

    百分位数

    对于有序数据,考虑值集的百分位数(percentile)更有意义。具体来说,给定一个有序的或连续的属性x和0与100之间的数p,属性x的第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。

    位置度量:均值和中位数

    对于连续数据,两个使用最广泛的汇总统计是均值(mean)和中位数(median),它们是值集位置的度量。
    考虑m个对象,这m个对象具有属性x,x的取值集合为{v1,...,vi,...,vk},且vi <= v(i+1),则
    均值:

    [mean(x) = ar{x} = frac{1}{m}sum_{i=1}^{m}v_i ag{3-1} ]

    中位数:

    [median(x) = left{ egin{matrix}v_{r+1},m=2r+1\ frac{1}{2}(v_r + v_{r+1}),m=2rend{matrix} ight. ag{3-2} ]

    概括地说,如果奇数个值,则中位数是中间值;如果有偶数个值,则中位数是中间两个值的平均值。
    由于均值对离群值敏感,所以有时采用截断均值(trimmed mean)。指定0和100之间的百分位数p,丢弃高端和低端的(p/2)%的数据,然后用常规的方法计算均值。中位数就是p=100时的截断均值。

    散布度量:极差和方差

    度量数据的集中程度。
    最简单的度量是极差(range)。给定属性x,它具有m个值{(x_1),..,(x_m)},则极差:

    [range(x) = max(x) - min(x) ag{3-3} ]

    更常用的度量是方差(variance)和标准差(standard deviation)。方差记作(s_x^{2}),标准差是方差的平方根,记作(s_x)。标准差和x具有相同的单位。

    [s_x^{2} = frac{1}{m-1}sum_{i=1}^m(x_i - ar{x})^{2} ag{3-4} ]

    注意,式(3-4)表示的是样本方差,注意与总体方差进行区别。
    由于方差对离群值敏感,所以有时会用到以下三种度量。
    绝对平均偏差(absolute average deviation, AAD):

    [AAD(x) = frac{1}{m}sum_{i=1}^m|x_i - ar{x}| ag{3-5} ]

    中位数绝对偏差(median absolute deviation, MAD):

    [MAD(x) = median({|x_1 - ar{x}|,...,|x_m - ar{x}|}) ag{3-6} ]

    四分位数极差(interquartile range, IQR):

    [IQR(x) = x_{75\%} - x_{25\%} ag{3-7} ]

    多元汇总统计

    包含多个属性的数据的位置度量,可以通过分别计算每个属性的均值或中位数得到。
    对于每个属性的散布情况,更多的使用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素(s_{ij})是数据的第i个和第j个属性的协方差。这样,如果(x_i)和(x_j)分别是第i个和第j个属性,则:

    [s_{ij} = covariance(x_i, x_j) ag{3-8} ]

    而其中,

    [covariance(x_i, x_j) = frac{1}{m-1}sum_{k=1}^m(x_{ki}-ar{x_i})(x_{kj}-ar{x_j}) ag{3-9} ]

    其中,(x_{ki})和(x_{kj})分别是第k个对象的第i和第j个属性的值。
    协方差的值接近于0,表明两个变量不具有(线性)关系。
    数据的相关性,可以用相关矩阵(correlation matrix)来度量。相关矩阵的第ij个元素是数据的第i和第j个属性之间的相关性。如果(x_i)和(x_j)分别是第i个和第j个属性,则:

    [r_{ij} = correlation(x_i, x_j) = frac{covariance(x_i, x_j)}{s_is_j} ag{3-10} ]

    其中(s_i)和(s_j)分别是(x_i)和(x_j)的方差。

    可视化

    动机

    1. 让人们能够快速吸取大量可视化信息,并发现其中的模式。
    2. 利用“锁在人脑袋中”的领域知识,用非可视化的方式分析,用可视化的方式提供结果,由领域专家进行评估。

    一般概念

    • 表示:将数据映射到图形元素
      将数据对象、属性,数据对象之间的联系表示成诸如点、线、形状、颜色等图形元素。
    • 安排
      正确合理地安排各项元素。
    • 选择
      删除或不突出某些对象和属性。

    技术

    少量属性的可视化

    • 茎叶图(stem and leaf plot)
    • 直方图(histogram)
    • 条形图(bar plot)
    • 相对频率直方图(relative frequency histogram)
    • Pareto直方图(Pareto histogram)
    • 二维直方图(two-dimensional histogram)
    • 盒状图(box plot)
    • 饼图(pie chart)

    可视化时间空间数据

    • 等高线图(contour plot)
    • 曲面图(surface plot)
    • 矢量图(vector plot)
    • 低维切片
    • 动画

    可视化高维数据

    • 矩阵
    • 平行坐标系(parallel coordinates)
    • 星形坐标(star coordinates)
    • Chernoff脸(Chernoff face)

    注意事项

    ACCENT原则:

    • 理解(Apprehension)
      正确察觉变量之间的关系。图形能够最大化对变量之间关系的理解吗?
    • 清晰性(Clarity)
      以目视识别图形中所有元素。重要的元素或关系在视觉上最突出吗?
    • 一致性(Consistency)
      根据以前的图形的相似性解释图形。元素、符号形状、颜色等与以前的图形使用的一致吗?
    • 有效性(Efficiency)
      用尽可能简单的方法描绘复杂关系。图形元素的使用经济吗?图形容易解释吗?
    • 必要性(Necessity)
      对图形和图形元素的需要。与其他替代方法(表、文本)相比,图形是提供数据的更有用形式吗?为了表示关系,所有的图形元素都是必要的吗?
    • 真实性(Truthfulness)
      通过图形元素的大小,确定图形元素所代表的的真实值。图形元素可以准确地定位和定标吗?
  • 相关阅读:
    汇编中的String
    对于C语言可移植性的思考【转】【补充】
    AT&T Mnemonic Conventions(AT&T汇编助记法的规则)
    Macro和Procedure的比较(汇编中的宏与函数)
    File Descriptor和Sys_call number
    #include <sys/types.h>在哪里?
    IIS7 与 WCF 问题总结
    非常不错的WCF入门文章,来自Artech
    WCF 部署问题 小总结 (HTTP 不能注册的解决方法)
    IIS7 aspx出现500.21错误
  • 原文地址:https://www.cnblogs.com/husterzxh/p/10033136.html
Copyright © 2011-2022 走看看