zoukankan      html  css  js  c++  java
  • 描述统计学:中位数、众数、百分位数、平均数

    数值方法

    样本统计量:数据来自样本,计算的度量
    总体参数:数据来自总体,计算的度量
    点估计量: 样本统计量被称为是相应总体参数的点估计量

    位置的度量

    平均数

    最重要的变量:平均数(mean)
    如果数据来自某个样本,则样本平均数为

    公式为:

    如果数据来自某个总体,则平均数用希腊字母μ表示。

    公式为:

    中位数

    将所有数据按升序排序后,位于中间的数值即为中位数。
    (1)当观测值是奇数时,中位数就是中间那个数值。
    (2)当观测值是偶数时,则没有单一的中间数值,这个时候定义中间两个观测值的平均数。

    平均数往往会受到异常大或异常小的数值影响,中位数这个时候提供了比平均数更好的中心位置的度量。

    经常用在年收入及资产价值数据的报告中,因为少数极端大的收入和资产价值将会夸大平均数。

    众数

    就是数据集中出现次数最多的数值。

    需要注意,如果出现了两个或两个以上的众数,几乎从不报告众数,因为对于描述数据的位置并不能起多大作用。

    百分位数

    提供了数据如何散步在从最小值到最大值的区间上的信息。

    第P百分位数:

    假设一名学生的语言考了54分,相对于参加同样考试的学生,这个学生的表现如何,可能不太清除,但是如果对应着第70百分数,则说明70%的学生比他低,30%的学生比他搞。

    计算步骤:

    1. 把数据按升序排序

    2. 计算指数i:

    3. p为所求百分数,n是观测值的个数。

    4. (1)若i不是整数,则向上取整,大于i的下一个整数表示第p百分数的位置。
      (2)若i是整数,则第p百分位数是第i项和第(i+1)项数据的平均值。

    实例:

    i不是整数:

    3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925
    

    我们取85%的标准,则是第11位。

    i是整数:

    第50百分数是第6和7项的平均值。(3490+3520)/2 = 3505,同时,第50百分位数也是中位数。

    四分位数

    目的是为了将数据划分为相等的四部分,四分位数的计算方法不同,结果也会略有不同。

    gai

    =第一位四分位数,或第25百分位数

    =第二四分位数,或第50百分位数(也是中位数)

    =第三四分位数,或第75百分位数

    四分位数是一种特殊的百分位数,因此,计算百分位数的步骤可以直接用于四分位数的计算。

    调整平均数

    当数据集中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。

    但是如果用平均数,则从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值。

    5%调整平均数,删除5%最小的数值和5%最大的数值,例如n=12,12*0.05=0.6,四舍五入值为1。则要删除一个最大一个最小,求剩下10个的调整平均数。

    练习

    一、
    gai

    a. 每场比赛3分球投篮的平均次数是多少?

    350 / 19 = 18.42
    

    b. 每场比赛3分球命中的平均次数是多少?

    120 / 19 = 6.31
    

    c. 较近的3分球,球员的命中率为35.2%。对新的3分线,球员的命中率是多少?

    120 / 350 = 0.342*100%=34.2%
    

    d. 将3分线后移至20英尺9英寸的影响是什么?

    影响是命中率降低了1%的命中概率,无伤大雅。
    

    二、

    gai

    a. 直接用代码写了,手算费劲。

    list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
    data = Series(list1)
    # 平均数
    data.mean()= 160.0
    # 中位数
    data.median() = 135.0
    # 众数
    data.mode() = 120.0
    

    b. 代码生成

    data.quantile([0.25,0.5,0.75])
    0.25    115.00
    0.50    135.00
    0.75    183.75
    dtype: float64
    

    c.计算并解释第90百分位数

    data.quantile(0.9)
    237.00
    

    三、
    gai

    a.GDP增长速度的最小预测值是多少?最大预测值是多少?

    # 预测值
    forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]
    
    data=Series(forcast)
    data.max()
    3.5
    
    data.min()
    0.4
    

    b. 计算平均数,中位数,众数

    data.mean()
    2.30
    data.median()
    2.5
    data.mode()
    2.7
    

    c. 计算第一四分位和第三四分位

    data.quantile([0.25,0.75])
    
    0.25    2.000
    0.75    2.775
    dtype: float64
    

    d. 经济学家对美国经济持乐观还是悲观态度?

    乐观态度,中位数和平均数都在2.5以上,说明经济学家普遍看好美国的经济增长。

  • 相关阅读:
    浏览网页的过程
    端口转发和端口映射
    代码审计入门之BlueCMS v1.6 sp1
    php伪协议总结
    phar反序列化
    iOS开发之GCD使用总结
    深入理解Android NDK日志符号化
    Android 开源项目源码解析之DynamicLoadApk 源码解析
    Gilt如何将微服务部署到AWS环境,介绍ION-Roller
    100分程序员的8个习惯
  • 原文地址:https://www.cnblogs.com/lishi-jie/p/9914695.html
Copyright © 2011-2022 走看看