zoukankan      html  css  js  c++  java
  • 实验1-EXCEL描述性统计分析

          描述性统计分析的常用指标有平均数、方差、中位数、众数、标准差等,
    提供分析对象数据的集中程度和离散程度等信息。 我们可以通过相关统计函数如:
    求和、平均值、最大(小)值、中位数、众数等来描述它的数据特点。 
             实验1:以某公司“用户消费数据”为例,利用用户消费金额这个变量来描述
    用户消费行为特征,分析了解用户消费分布。 
            实验步骤: 【数据】-【分析】-【数据分析】-【描述统计】 
     ----------------------------------------------------------------
    输入: 
          (1)输入区域 
          (2)分组方式:选择分组方式,如果需要指出【输入区域】
    中的数据是按行还是按列排列。这里选择[逐列]。 
          (3)标志位于第一行,若数据源区域第一行含有标志位,则应勾选。
    否则,EXCEL字段将以"列1、列2、列3、...."作为标志。

                               

                                          图2-1 【描述统计】参数设置

    -----------------------------------------------------------
     输出:
          (1)输出区域 
          (2)汇总统计:包含平均值、标准误差、中位数、众数、标准差、
    方差、峰度、偏度、区域、最小值、最大值、求和等。
          (3)平均置信度:是指总体参数值落在样本统计值某一区内的概率,常用的置信度为95%或90%。
          (4)第K大(小)值:表示输入数据组的第几位最大(小)值。 
                   
                                 图2-2 描述性统计结果示例 
        通过以上分析,我们可以得知用户的消费能力,例如这些用户平均消费金额为5098元,
    用户的最高消费金额达到8886元,最低消费金额仅为1044元。

         (1)表现数据集中趋势的指标:平均数、中位数、众数。
         (2)描述数据离散程度的指标:方差和标准差,他们反映的是与平均值之间的离散程度。 
         (3)呈现数据分布形状指标:偏度系数与峰度系数。 峰度系数是描述对称分布曲线峰
    顶尖峭程度的指标。有尖峭峰分布、平阔峰分布,是 相对于正态分布而言的。 
    峰度系数>0,两侧极端数据较少,比正态分布更高更瘦,呈尖峭峰分布; 
    峰度系数<0,两侧极端值较多,
    比正态分布更矮更胖,呈平阔峰分布; 

     偏度系数是以正态分布为标准来描述数据对称性的指标。 
    偏度系数=0,分布对称; 
    偏度系数<0,频数分布的高峰向左偏移,
    长尾向右延伸,则称为正偏态分布; 
    偏度系数>0,频数分布的高峰向右偏移,长尾向左延伸,则称为负偏态分布;
     偏态系数>1或者<-1,高度偏态分布; 
    偏态系数在0.5~1或-0.5~-1,中等偏态分布。 
    偏度系数越接近0,偏斜程度越低。

     通过分析可知道,用户消费金额的峰度系数<0且偏度系数<0,所以用户消费数据呈现为平阔峰式正偏态分布。 
      




  • 相关阅读:
    KMP
    KMP 算法详解
    快慢指针-链表环入口问题
    算法题——只出现一次的数字
    DECODE 与CASE WHEN 的比较
    Mybatis动态传入tableName--非预编译(STATEMENT)
    mysql数据库出现无法登录(ERROR 1045 ),预防和解决及系列问题解决方法。
    15.linux iptables防火墙规则vsftp服务
    14.LAMP服务 Linux Apache Mysql Php和防护机制 xinetd、tcp wapper
    13.mysql数据库
  • 原文地址:https://www.cnblogs.com/xuxaut-558/p/10285697.html
Copyright © 2011-2022 走看看