zoukankan      html  css  js  c++  java
  • 数据挖掘——统计学分析(三:数据的概括性度量)

    数据的概括性度量

    数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。

    集中趋势的度量

    分类数据:众数

    一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。

    顺序数据:中位数、分位数

    中位数、四分位数、十分位数、百分位数

    数值型数据:平均数

    主要适用于数值型数据,根据所掌握数据的不同,平均数的计算形式和计算公式:

    简单平均数和加权平均数

    众数、中位数和平均数的比较

    单峰分布的大多数据:众数、中位数和平均数之间的关系如下—数据分布是对称的,众数、中位数和平均数必定相等。

    离散程度的度量

    分类数据:异众比率

    非众数据的频数占总频数的比例,主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

    适用于测度分类数据的分散程度。

     

    顺序数据:四分位差

    反映中间50%数据的离散程度,其值越小,说明中间的数据越集中;其值越大,说明中间的数据越分散。

    主要适用于顺序数据的离散程度。

     

    数值型数据:方差和标准差

    极差易受极端值的影响。

    平均差全面地反映一组数据的离散程度。

    方差:较好地反映数据的离散程度,实际中应用最广。

    标准差:比方差更具实际意义。

    相对离散程度:离散系数。

    离散系数->变异系数,是一组数据的标准差与其相应平均数之比。离散系数越大说明数据的离散程度也大;离散系数越小,说明数据的离散程度也小。

    偏态与峰态的度量

     

    偏态及其测度

    对数据分布对称性地测度,用偏态系数来表示,偏态系数=0,说明数据分布是对称的。

    偏态系数不等于0,说明数据分布非对称的;若偏态系数大于1或小于1,称为高度偏态分布;若偏态系数在0.5~1-1~0.5之间,被认为是中等偏态分布;

    峰态及其测度

    峰态是相对于标准正态分布而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖。

  • 相关阅读:
    Mysql 取整的方法
    方法、选择比努力更重要, 所以既要低头干活,更要抬头看路!
    mysql索引
    MYSQL 存储过程 多表更新异常捕捉和异常处理方式
    JavaScript中in的用法
    中美印日四国程序员比较
    ubuntu下Django的下载与安装(三种方法)
    ubuntu下下载并安装H265(hm.x.x代码和X265代码)
    s3c-u-boot-1.1.6源码分析之一start.s
    s3c-u-boot-1.1.6源码分析
  • 原文地址:https://www.cnblogs.com/Erma/p/9739271.html
Copyright © 2011-2022 走看看