zoukankan      html  css  js  c++  java
  • 商务统计学(五)第8章

    商务统计学(五)第8章

    《商务统计学》第七版

    作者:戴维·莱文等,审校:胡大源

    “先把书读厚,再把书读薄” --- 华罗庚

    第八章 置信区间的估计

    在上一章学习“均值的抽样分布”和“比率的抽样分布”时,我们采用了演绎推理的方法。而这一章我们需要“归纳整理”的方法,归纳整理是让你从(关于样本的)具体情况出发,然后得出具有普遍意义的结论。虽然不能保证结论是绝对正确的,但在谨慎选取特定样本和严格使用正确方法后,将会得出有实际意义的结论。

    一般我们使用点估计或者区间估计来推断总体参数

    • 点估计,使用单个样本的统计量来估计总体参数的方法
    • 置信区间估计,是在点估计的基础上,向两边延伸形成一个区间(interval)。构建置信区间可以帮助我们计算总体的某个参数落在特定区间内的概率

    8.1 对总体均值的置信区间估计(已知总体标准差)

    这本书的p231~p236凭借结合案例的推演讲解,深深地触动了我,证明了它确实是一本好书

    置信区间 what&how

    [本节讨论的“对总体均值的置信区间的估计”的前提是,我们所关心的变量X的总体呈正态分布,且已知总体的标准差sigma\ 在总体不是正太分布的情况下,样本ar{X}的分布也就不服从正太分布了,此时本节讲的置信区间也就不再适用\ 但由于在n较大的情况下(传统来说大于30),中心极限定理可以保证均值抽样分布对应的X(ar{X})接近正态分布\ 因此,只要样本的数量足够大,总体的分布偏度不是非常严重,而且已知总体标准差sigma\ 就可以适用本节中讨论的置信区间来估计总体均值 ]

    what

    [总体均值的置信区间(sigma已知):\ ar{X}-Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}} leq mu leq ar{X}+Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}}\ Z_{frac{alpha}{2}}是在标准正态分布曲线下,上限临界值之外的概率为frac{alpha}{2}时(也就是累计面积为1-frac{alpha}{2})时的Z值 ]

    • 临界值

      [这里的Z_{frac{sigma}{2}}是构建置信区间所需的临界值,构建一个置信水平为95\%的置信区间时,sigma=0.05\ 因为在区间外的5\%是被分配在正态分布左右两侧的,因此从负无穷到上限临界值的累计面积就为Z_{0.95+frac{0.05}{2}}=Z_{0.975}=1.96\ 另有常见常用的置信水平为99\%的置信区间的Z值为Z_{0.995}=2.58\ ]

    • 置信区间的大小

      置信区间的含义是:(例如置信区间为95%)

      [(通过该组样本的数据)我有95\%的信心相信,总体均值在\ ar{X}-Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}} leq mu leq ar{X}+Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}} 之间\ ]

      那么为什么不将置信水平设置为100%呢?

      因为“置信区间的加宽会使置信区间的精准度下降”,通俗来讲,根据公式就可以的得出,当置信区间越大Z值就越大,那么最后求得的区间就更宽了,这就会导致真正的总体均值虽然落在置信区间的可能性变大了(就是置信水平),但是范围一大我们自然就更加不好判断总体均值的具体值范围,这就是精准度下降。

    how

    • 置信区间的由来

      原书P232页,讲解很精彩且易懂,不再赘述

    • 怎样才能知道总体标准差?

      如果要使用置信区间的公式就必须知道总体的标准差。然而,要知道总体的标准差就意味着我们已经知道总体中的每一个值。但这样我们可以直接求的总体均值,而不需要在通过统计学的归纳推理来估计总体均值。

      换句话说,如果已经知道总体标准差,那么就完全没必要使用公式来构建总体均值的置信区间。

      其实通过已知标准差来理解置信区间时非常有效的途径,下一节将学习在标准差未知的情况下构建置信区间需要使用的另一种分布。

      此书之精妙就在此处,不但通过大量例子引导读者理解概念,还告诉读者算法的来龙去脉,娓娓道来,诲人不倦,赞

    8.2 对总体均值的置信区间的估计(标准差未知)

    t分布

    [如果总体(变量X)服从正态分布,那么以下统计量服从自由度为n-1的t分布\ t=frac{ar{X}-mu}{frac{S}{sqrt{n}}}\ 这个表达式与均值抽样分布的Z值计算公式是一样的,只是因为不知道sigma,所以用S替换了sigma\ S指样本标准差,ar{X}指样本均值 ]

    t分布的特性

    • 从图形上来看,t分布和标准正态分布曲线非常接近 --- 两者都呈钟型且均值和中位数都为0
    • 但因为标准差未知,所以要用S来估计标准差(sigma),因此t值的波动要大于Z值的波动,t分布曲线在两个尾部的面积大于标准正态分布曲线,而中心部分有小于标准正态分布曲线
    • 随着样本容量和自由度的增大,t分布就会逐渐接近正态分布。一直增大最终就会重叠在一起。
    • 同样地,随着样本容量的增大,总体标准差的估计值S也会越来越精准,一般来讲,当样本容量大于120的时,S就足够精确,t值与Z值的差别也就变得微不足道了
    • 当然,t分布的前提依旧是要求所研究的随记变量X服从正态分布。不过,就像老生常谈的那样,实践中只要样本容量足够大,且总体分布不是非常偏斜,那么在总体标准差未知的时候,也可以采用t分布估算棕瓶体均值。

    自由度的概念

    • [要计算S^2,首先要知道ar{X},此时样本容量为n的样本中,只有n-1个观测值是可以自有变动的,这意味着一共有n-1个自由度 ]

      也就是说,比如,样本中有5个观测值,已知它们的均值是20 ,那么所有数据的总和就为100,。我们只要知道其中的4个数就可以确定唯一的第五个数。这就是自由度 --- 至少知道多少个数据的值才能确定样本中所有数据的取值。

    总体均值的置信区间(总体标准差未知)

    • [ar{X}-t_{frac{alpha}{2}}frac{S}{sqrt{n}} leq mu leq ar{X}+t_{frac{alpha}{2}}frac{S}{sqrt{n}}\ 其中ar{X}为样本均值,S为样本标准差,n为样本容量 ]

    • 使用方式:(假设95%的置信水平,样本容量为100)

      • 代入样本均值、样本标准差、样本容量
      • (对于95%的置信水平)在t分布表中线找到自由度为99的一行,然后选择累计概率为(0.95+0.05/2=0.975)的一列,得出t值为1.9842
      • 然后,可以得出“有95%的把握(置信水平)认为总体均值在xxx~yyy之间”。(但需要注意的是,通过一组样本,永远真正确定这一结论是否真的包含总体均值,只能“有多少把握”

    8.3 比率的置信区间估计

    总体比率的置信区间的估计

    [p-Z_{frac{alpha}{2}}sqrt{frac{p(1-p)}{n}} leq pi leq p+Z_{frac{alpha}{2}}sqrt{frac{p(1-p)}{n}}\ p为样本比率,P=frac{x}{n}=frac{具有感兴趣的数据量}{样本容量},pi为总体比率\ ]

    • 使用上述公式构建置信区间时样本容量必须足够大使得能够保证X和n-X均大于5。满足时,也可以使用正态分布近似计算二项分布问题
    • 但是当不满足时,就应该采用二项分布表达式计算,而不应该采用上述公式

    8.4 确定样本容量

    在现实的商务活动中,为了构建足够精确的置信区间以支持商务决定,样本空间需要在数据收集之前确定。确定样本容量是一个十分负责的过程,需要考虑到预算、时间、以及可接受的样本误差等。

    此外,你还必须提前决定所需要的置信水平是多高。

    估计均值所需样本容量的确定

    • 推导

      [对于置信区间ar{X}pm Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}}中基于均值加上或者减去的部分就是抽样误差\这部分面积(抽样误差)表示了由于抽样误差导致的估计偏离精确的程度,因此有\ e=Z_{frac{alpha}{2}}frac{sigma}{sqrt{n}},通过此等式解出n,就是我们需要的样本容量\ ]

    • 其中需要确定的参数为

      • 与目标置信水平相对应的标准正态分布临界值Z(alpha/2)

      • 可接受的抽样误差e

      • 总体标准差(sigma)

      抽样误差和置信水平一般由政府或者行业专家制定。

      另外,我们很少知道总体的标准差,一般我们只能通过历史数据估算标准差,而有时我们可以通过变量的取值范围和分布来预测其标准差(比如正态分布,一般认为全距为6倍的标准差,那么对于服从正态分布的数据,知道全距后除以6就是估算的总体的标准差)

    • 最终来说,样本容量为

      [n=frac{Z_{frac{alpha}{2}^{2}}sigma^2}{e^2} ]

    估计比率所需样本容量的确定

    • 公式

      类比上述方法可得公式

      [n=frac{Z_{frac{alpha}{2}}^2 pi(1-pi)}{e^2} ]

      π为总体比率

    • 参数

      • 合理的置信水平Z

      • 可接受的抽样误差e

      • 实际总体比率π

        关于π的估计有两种方法

        • 一种是基于过去的信息或者相关的经历判断π的估计值
        • 如果没有,你可以使用一个绝对不会低估样本容量的π值 --- 使得π(1-π)最大化 --- 一般就取π=0.5。当π=0.5时,样本容量的估计值将最大化,置信区间的宽度将最小化,而精确度也将最高。但弊端就是,这样的出的样本容量意味着有时候抽样成本也将很大。

    8.5 自助抽样法

    本章中构建置信区间的方法需要特定的假设成立。而这些假设往往不成立,尤其是当样本容量小的时候。

    自助抽样法是通过选择一组样本,并不断从该样本中抽样的方法。自助抽样法提供了一种不需要任何假设的方法。

    8.6 置信区间估计与道德问题

    • 是否同时提供置信区间估计与点估计。不提供区间估计时,听众就容易被误导,以为从样本中得出的点估计就能够准确地腹肌总体特征。
    • 如果采用更道德的方式,置信区间、样本容量、抽样误差以及调查的置信水平就应该放在最明显的地方。
  • 相关阅读:
    爬虫之JSON
    爬虫bs4案例
    爬虫bs4
    爬虫之Xpath案例
    爬虫之xpath
    监控 Kubernetes 集群应用
    手动部署k8s-prometheus
    ingress之tls和path使用
    ingress安装配置
    kube-dns和coreDNS的使用
  • 原文地址:https://www.cnblogs.com/G-Aurora/p/13770064.html
Copyright © 2011-2022 走看看