zoukankan      html  css  js  c++  java
  • 描述统计学:表格法和图形法

    描述统计学:表格法和图形法

    • 数据可以分为分类型或数量型

      • 分类型数据

        • 是用来标记或名称来识别项目的类型
      • 数据量数据

        • 是表示多少或大小的数值

    分类型数据汇总

    • 频数分布:表示在几个互不重叠的组别中每一组的项目个数,就是出现频率

      • 如何使用表格法和图形法汇总分类型数据

    频数

    • 统计后结果

    频数

    统计结果信息:提供了更多原始数据看不到的内涵,受欢迎程度谁最高,谁最低一目了然

    相对频数分布和百分数频数分布

    • 相对频数分布

      • 一组的相对频数是属于该组的项目个数的比例

      • 例如:50次购买饮料中可口可乐的相对频数=19/50

    • 百分数频数分布

      • 相对频数*100%

    条形图和饼形图

    • 条形图:用来描绘已汇总的分类型数据的频数分布、相对频数分布或百分数频数分布(是不是很绕口),别担心,看图,官方装逼词就非把简单的东西复杂解释

    条形

    总结:条形图就是需要先汇总原始数据,之后把分类的类型放横轴,出现的次数放纵轴

    • 饼形图:是另一种描绘分类型数据的相对频数和百分数频数分布的图形方法。

      • 汇总,算出相对频数
      • 相对频数 * 360°

      饼型

    注意:在实际生活中,会有很多的饮料分类,大部分只有很少的购买次数,大多数的统计专家建议把频数较少的组合合并到一个叫"其他"的综合组去,频数为5%或更少的组常常这样处理

    练习

    一、

    组别 相对频数 组别 相对频数
    A 0.22 C 0.40
    B 0.18 D

    a.组别D的相对频数是多少?

    • 0.2 = 1-0.22-0.18-0.40

    b.若样本容量为200,组别D的频数是多少?

    • x = 200*0.2 = 40

    二、

    DH CSI DH CSI L&O
    Trace CSI L&O Trace CSI
    CSI DH Trace CSI DH
    L&O L&O L&O CSI DH
    CSI DH DH L&O CSI
    DH Trace CSI Trace DH
    DH CSI CSI L&O CSI
    L&O CSI Trace Trace DH
    L&O CSI CSI CSI DH
    CSI DH Trace Trace L&O

    a.这些数据是分类型还是数量型的?

    • 分类型

    b.编制这些数据的频数分布和百分数频数分布

    • 绘制如下
    分组 频数 频数分布 百分数频数
    DH 13 0.26 26%
    Trace 9 0.18 18%
    CSI 18 0.36 36%
    L&O 10 0.10 10%

    c.绘制这些数据的条形图和饼形图

    • 条形图

    条形图

    • 饼状图
      饼图

    d.以样本为依据,哪个节目拥有最多的电视观众?哪个位居第二?

    • CIS第一,DH第二

    数量型数据汇总

    频数分布

    对于数量型数据,在将互不重叠的组用于频数分布时,我们必须更加小心。

    确定频数分布的分组时,三个必要的步骤是:

    (1) 确定互不重叠组的组数
    (2) 确定每组的组宽
    (3) 确定组限

    2-4

    • 组数

      • 组是通过对数据规定范围而形成的,这个规定的范围用于对数据进行分组。
      • 一般性原则我们建议使用5-20组,如果数据少,只要5-6组就可以汇总数据
      • 分组的目的是用足够多的组来显示数据的变异性,而不是有这么多的组只包含很少的数据项。
      • 图表2-4的数据项相对较少(n = 20),可以编制5组的频数分布
    • 组宽

      • 近似组宽 = (最大数据值-最小数据值) / 组数
      • 确定天数为5
    • 组限

      • 第一组下组限必须包含最小组,最后一组上限必须包含最大值
      • 最小确定为10,则10-14,15-19,20-24,25-29和30-34
      • 最大数据值33包含在30-34
      • 组宽为两个下组限之差 15-10 = 5
    • 组中值

      • 下组限和上组限的中间值

    相对频数分布和百分数频数分布

    • 频数分布的目的是为了揭示自然的分组和数据的变异性

    2-6

    打点图(dot plot)

    是一种最简单的数据图形汇总方式。横轴是数据的范围,每一个数据值由位于横轴上的点表示。

    打点图能够显示数据的细节,且有利于比较两个或更多变量的数据分布。
    2-3

    直方图

    直方图是一种常用的数量型数据的图形描述方式。

    • 由先前已汇总出的频数分布、相对频数分布或百分数频数可绘制直方图。
    • 横轴放变量,以组宽为底。
    • 纵轴放频数,相对频数或百分数频数。

    2-5

    • 适度左偏

      • 考试成绩是这种直方图的典型应用。

      • 因为没有成绩在100%之上,大多数成绩又常常在70%之上,只有极少数的成绩很低。

      左偏

    • 适度右篇

      • 房屋价格的数据可能是这种直方图的例子。

      • 少数昂贵的住宅造成右尾偏斜。

      右偏

    • 对称

      • 在应用中的直方图可能大致对称,但永远不会完全对称。

      • SAT的分数、人的身高和体重等数据的直方图大致对称。

      对称

    • 严重偏右

      • 房屋价格、工资、销售量等数据,常常导致直方图右篇。

      • 在商务与经济应用中得到的数据,常常使直方图右篇。

      右篇

    累积分布

    • 累积频数分布:对频数分布略加变化,可得到数值型数据的另一种表格汇总方式。
    • 累积频数,注意看累积两个字,累积小于等于某个值,而不是表示每一组的频数。

    images/image/2-7.png

    • 累积分布表明:

      • 有4次审计在14天内完成,有19次审计在29天之内完成。
    • 累积相对频数分布

      • 数据值小于或等于每一组上组限的数据项的比例和百分数
    • 累积百分数频数分布

      • 标明有95%的审计在29之内完成。

    累积曲线

    累积分布的图形表示称为累积曲线。

    • 横轴表示数据值。

    • 纵轴表示累积频数或累积相对频数。

    • 通过标出对应于每一组累积频数的点,就可以得到累积曲线。

    2-8

    总结

    1. 条形图和直方图在本质上是同一事物,他们都是频数分布数据的图形表示。

      • 离散的数量型数据,纵条之间有间隔是合适的,例如:饮料的受欢迎数
      • 连续的数量型数据,纵条之间有间隔是不合适的。例如:审计时间这种
    2. 开口组是指只有一个下组限或上组限的组。

      • 例如审计时间有两个58,65天的值,中间隔了很远
      • 直接以35或35以上来简化频数分布,频数为2
      • 开口组经常出现在最上端或最下端,偶尔两端都有
    3. 累积频数分布的最后一个数据项总是等于观测值的总数。

    练习

    1. 考虑下列数据

    练习题

    a. 利用组12-14,15-17,18-20,21-23和24-26来编制频数分布。

    组数 频数
    12-14 2
    15-17 8
    18-20 11
    21-23 10
    24-26 9

    说明:这个组数为5组,组宽3,最小下组限12,最大上组限26

    b. 用(a)中的组编制相对频数分布和百分数频数分布

    组数 相对频数分布 百分数频数分布
    12-14 0.05 5%
    15-17 0.2 20%
    18-20 0.275 27.5%
    21-23 0.25 25%
    24-26 0.225 22.5%

    c.编制数据的直方图和累积曲线

    • 直方图(我用excel做的)

    t-2

    • 累积曲线

      • 第一步先算出累积分布的表
      组数 累积频数 累积相对频数 累积百分数频数
      小于等于14 2 0.05 5%
      小于等于17 10 0.25 25%
      小于等于20 21 0.525 52.5%
      小于等于23 31 0.775 77.5%
      小于等于26 40 1 100%
      • 第二步根据累积分布表选点

      • 因为14-15、17-18等中间有一个单位的间隔,通过标出组限间的中点来消除这些间隔。
        14.5、17.5、20.5、23.5、26.5

      • 这个图画的有点费劲,坎坎坷坷不太完美

      t-3

  • 相关阅读:
    SQL语句建表、设置主键、外键、check、default、unique约束
    郝斌老师的SQL教程
    Hello WPF!
    指针
    穷举法破解 zebrone1.1
    一条汇编指令引发的 蝴蝶效应 (后记)
    浮点 汇编指令基础知识
    收敛数列极限唯一性证明
    MFC SkinMagic使用方法
    Python初学1
  • 原文地址:https://www.cnblogs.com/lishi-jie/p/9845059.html
Copyright © 2011-2022 走看看