zoukankan      html  css  js  c++  java
  • 描述统计学:极差、方差、标准差

    变异程度的度量(离散程度的度量)

    交货时间的变异性造成按时完成生产任务的不确定性

    极差

    极差=最大值-最小值

    最简单的变异程度的度量

    但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响

    四分位数间距

    能够克服极端值的影响,因为四分位数是中间的50%数据的极差.

    方差

    是用所有数据对变异程度所做的一种度量。

    对于样本平均数的离差=

    对于总体平均数的离差=

    总体方差

    样本方差

    样本方差是总体方差的点估计,平均数的离差之和永远为0。

    例子:

    第一组的鸡的斤数分别是 2.5,3,3.5
    第二组的鸡的斤数分别是 1,3,5

    很显然我们能看出第一组鸡看起来重量的差别不大,第二组鸡的差别就很大,因为鸡本身重量并不大,相差两斤的话一下子就能看出来
    可是我们发现这两组鸡重量的平均数是一样的,但是这两组鸡却有明显的差别,这是平均数就不能体现二者的差别,所以我们引入了方差的概念

    方差越大,说明数据的差别越大。反应了一组数据的稳定性。

    标准差

    方差的平方根

    样本标准差:

    总体标准差

    标准差更容易与平均数等其他统计量进行比较,这是由于它们的单位与原始数据是相同的。

    标准差系数

    (标准差/平均数)*100%

    在变量的标准差和平均数都不相同时,比较它们的变异程度,标准差系数是一个有用的统计量。

    练习

    1. 考虑数据值为10,20,12,17和16的一个样本,计算方差和标准差。
    new_list = [10,20,12,17,16]
    data = Series(new_list)
    # 方差
    data.var()
    3.125
    # 标准差
    data.std()
    1.7677669529663689
    

    gai

    new_list = [182,168,184,190,170,174]
    data = Series(new_list)
    # 方差
    data.var()
    75.2
    # 标准差
    data.std()
    8.67179335547152
    # 平均数
    data.mean()
    178.0
    # 极差
    data.max()-data.min()
    22
    # 标准差系数
    (data.std()/data.mean())*100%
    4.87%
    

    gai

    # 平均数
    car.mean()
    38.0
    # 标准差
    car.std()
    9.848857801796104
    # 方差
    car.var()
    97.0
    

    虽让东西部的租车费用的平均数相同,但是标准差东部的数值远远大于西部的,可见东部的各个城市间的租车费用差异性比较大,离散度较高,西部的各个城市间的租车费用相对来说差别不大,比较稳定。

    gai

    dawson = [11,10,9,10,11,11,10,11,10,10]
    clark = [8,10,13,7,10,11,10,7,15,12]
    shop = pd.DataFrame([dawson,clark],index=['dawson','clark'])
    shopT = shop.T
    shopT
    
        dawson	clark
    0	11	8
    1	10	10
    2	9	13
    3	10	7
    4	11	10
    5	11	11
    6	10	10
    7	11	7
    8	10	15
    9	10	12
    
    diff_vale = shopT.max()-shopT.min()
    diff_vale
    # 极差
    dawson    2
    clark     8
    
    s = shopT.std()
    s
    # 标准差
    dawson    0.674949
    clark     2.584140
    

    由两家的极差和标准差可见,稳定性dawson远远高于clark。

    gai

    Bonita_2005 = [74,78,79,77,75,73,75,77]
    Bonita_2006 = [71,70,75,77,85,80,71,79]
    golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
    # 平均数
    golf_person.mean(axis=1)
    2005    76.0
    2006    76.0
    # 标准差
    golf_person.std(axis=1)
    2005    2.070197
    2006    5.264436
    
    golf_person.T.describe()
            2005	        2006
    count	8.000000	8.000000
    mean	76.000000	76.000000
    std	2.070197	5.264436
    min	73.000000	70.000000
    25%	74.750000	71.000000
    50%	76.000000	76.000000
    75%	77.250000	79.250000
    max	79.000000	85.000000
    

    虽然平均数是相同的,但是看的出来,2006年的比赛,心态并不稳定,但是最大值和最小值的差值从2005的6,2006年的15反映出该运动员的水平是得到了提高的。

  • 相关阅读:
    解决:Failed to update database: "APP_DATA\ASPNETDB.MDF" is readonly .
    MySQL DATE_ADD() 函数
    用struts上传图片,中文命名的图片无法显示
    hrbustoj 1291 点在凸多边形内
    按标签来查技术文章
    ClassLoader in Java
    [Python]标准库inspect
    IMEI修改(IMEI第十五位验证码的计算)
    游戏之巅:游戏背后的创业风云
    常用的网站后台编辑器
  • 原文地址:https://www.cnblogs.com/lishi-jie/p/9924590.html
Copyright © 2011-2022 走看看