zoukankan      html  css  js  c++  java
  • 商务统计学(六)第9章

    商务统计学(六)第9章

    《商务统计学》第七版

    作者:戴维·莱文等,审校:胡大源

    “先把书读厚,再把书读薄” --- 华罗庚

    第九章 假设检验基础:单样本检验

    在第7章中你学会了如何判定一个样本的均值是否与其来源总体相一致?

    而现在你需要处理:怎样利用样本均值来证实一个有关总体均值的判断?

    面对这样的问题你需要使用假设检验的推断方法(Look,这就是我喜欢这本书的地方)

    9.1 基本假设的检验方法

    假设检验

    假设检验需要你陈述一个没有歧义的论断,假设检验一般从关于某一总体参数的理论、主张或者断言开始。

    零假设

    零假设用于表示现状,零假设仍然是关于总体参数的假设。

    [比如自动装盒过程中,若果运行正常,那么平均每盒产品的重都与标注重量相同。即,H_0:mu=标注值 ]

    • 一个推断是:通过样本数据所观察到的结果,表明零假设为假,如果零假设为假,那么一定有其他假设为真(备择假设为真

    • 不能被拒绝的零假设并不能证明是真的

    • (有意思的是)我们永远也不能证明零假设是真的,因为我们的判断仅仅基于样本信息,而不是整个总体信息。(也可以称为“我们无法证明备择假设的正确性”,所以你不能拒绝零假设)

    • 零假设总是对总体参数的某一特定值而言的,而不是关于样本统计量(如样本均值)而言的

    备择假设

    [备择假设,H_1是与零假设H_0相对立的。在上述例子中可以表示为H_1:mu eq 标注值 ]

    在许多研究中,备择假设都不是研究的重点,因为如果从样本中得到的证据足以证明零假设不太为真,那么就可以拒绝零假设,从而得到备择假设所代表的结论。(但如果零假设没有被拒绝,你无法证明某一步出现了问题,那么你可以继续相信未被证实的零假设)

    零假设包含等号而备择假设不包含等号

    检验统计量的临界值

    在决策的过程中,如果依靠个人主观判断(比如手样本均值与总体均值)什么样是“很接近”,什么样式“相差很大”,就太随意了。

    假设检验论提供了清晰的定义来衡量这些差别,使得量化了决策过程,从而计算出在零假设成立的情况下,得到某一样本值的概率

    要做到这一点

    • 首先要确定有关的样本统计量(即样本均值)的抽样分布

    • 然后根据给定的样本值计算出特定的检验统计量

      (由于检验统计量的抽样分布通常服从某些已知的统计分布,比如标准正态分布和t分布,我们可以利用这些分布来确定零假设是否为真)

    拒绝域和非拒绝域

    我们可以将检验统计量的抽样分布分为两个区域:拒绝域和非拒绝域

    • 如果检验统计量的值落入非拒绝域,那我们就无法拒绝零假设。
    • 同理,如果落入拒绝域,那就可以拒绝零假设。(在零假设为真的落入拒绝域的可能性非常小,在零假设不为真时,落入拒绝域的可能性会增大许多)
    • 临界值的确定决定于拒绝域的大小,而拒绝域的大小又和 根据样本信息来决定总体参数的 风险直接相关

    根据假设检验方法进行决策的风险

    用假设检验进行决策时,存在得出错误结论的风险,分为两类

    1. 第一类错误错误地拒绝了一个正确的零假设。发生第一类错误的概率用alpha来表示。代表“错误报警”。
    2. 第二类错误没有拒绝一个错误的零假设。发生第二类错误的概率用beta来表示。代表“坐失良机”。(译者挺有意思)

    根据传统

    • 显著性水平

      [alpha是人们可以接受的拒绝正确零假设的风险,(这种犯第一类错误的风险或者说概率)被称为统计检验的显著性水平 ]

      由于在进行假设检验之前就要确定显著性水平,因此alpha可以认为加以控制,通常会选择0.01,0.05,0.10作为显著性水平

      非一般情况的显著性水平取决于犯第一类错误的代价

      • 置信系数

        [与显著性水平alpha互补的值(1-alpha)称为置信系数\ 是当零假设为真(不应被拒绝时)人们不拒绝它的概率 ]

    • beta风险

      [犯第二类错误的(没有拒绝一个错误的零假设的)概率被称为eta风险(eta risk) ]

      • 统计检验能力

        统计检验是,当零假设错误应该被拒绝时人们拒绝它的概率。(顾名思义,这是正确的拒绝,这样的概率可以表现该检验假设的能力)

    • 控制和降低犯第二类错误的概率的途径之一就是扩大样本容量。给定显著性水平,扩大样本容量,将使beta值变小,从而增大统计检验能力。

      但是我们拥有的资源是有限的。因此给定样本容量时,我们必须劝权衡两类可能的错误之间的“此消彼长”的关系

      [alpha减小,eta增大;alpha增大,eta减小 ]

      由于alpha --- 犯第一类错误的风险可以直接控制,所以一般通过alpha来权衡。至于应该取多大的alpha值最合理,这取决于犯这两类错误的代价:(以麦片装盒为例,每盒麦片的标称值为368g,零假设就为:平均每盒麦片的重量为368g)

      • 如果犯第一类错误的代价很大,我们就可以选择alpha为0.01而不是0.05

        (比如犯了第一类错误,然后所需要调整流水线上装配值的代价很高,就要选择较小的alpha)

      • 如果犯第二类错误的代价很大,我们就可以将alpha增大到0.05甚至是0.10

        (比如犯了第二类错误,但是根据质检标准,实际平均每盒麦片的重量要严格地限定在标称值附近,就要选择较大的alpha)

    均值的Z检验(标准差已知)

    [Z_{STAT}表示以标准差为单位度量的ar{X}与mu之间的差距\ Z_{STAT}=frac{ar{X}-mu} {frac{sigma} {sqrt{n}}}\ (公式与均值抽样分布的Z值的相等) ]

    假设检验临界值法

    在假设检验法中需要将检验统计量(Zstat)与划分拒绝域与非拒绝域的临界值进行比较。

    这里的临界值可表示为由显著性水平决定的标准化的Z值。

    例如,我们使用0.05的显著水平,由于零假设包含等号而备择假设不包含等号,我们使用双侧检验(暂时不知道包不包含等号与进行双侧检验有什么关系),因此0.05被平分给两个拒绝域,每部分0.025。对正态分布而言,两处临界值的值分别就为-1.96和1.96(因为累积区域大小分别是0.025和0.975,然后对照累计标准正态分布表得出)。因此,决策准则为

    [若Z_{STAT}>+1.96或Z_{STAT}<-1.96,则拒绝H_0\ 否则,不能拒绝H_0 ]

    假设检验的六个步骤

    1. 写出零假设和备择假设
    2. 确定显著水平alpha,以及样本容量n
    3. 确定要使用的检验统计量,以及样本分布
    4. 确定划分拒绝域和非拒绝域的临界值
    5. 收集整理样本数据,计算检验统计值
    6. 判定假设能否成立,做出决断(检验统计量落入拒绝域则拒绝假设,落入非拒绝域则不能拒绝假设)

    假设检验的p值法

    p值(p value)是在零假设为真的情况下,使得某一检验统计量等于或大于样本结果的概率。p值经常被称为“观察到的显著水平”。根据p值来确定拒绝域和非拒绝域是假设检验的另一种方法:

    [如果p值大于或等于alpha,则不能拒绝零假设,如果p值小于alpha,则拒绝假设 ]

    例如,我们要检验装盒重量的均值是否等于368g。所得到的Z(stat)=+1.50(就是说总体均值与样本均值的差距为1.50)。使用p值进行双侧检验,我们可以得到一个Z(stat)检验统计量相应的概率 --- Z(stat) < -1.50的概率为0.0668,那么同理,它大于+1.50的概率就为0.0668。因此,这一双侧检验中的p_value=0.0668+0.0668=0.1336(也就是说,检验统计量正处在或比样本观测结果更偏离中心的概率是0.1336),由于0.1336>0.05,因此不能拒绝零假设。

    置信区间估计与假设检验之间的关系

    这两者是统计推断的两个重要组成部分,他们基于相同的基本概念,但它们的目的不同

    • 置信区间:用于估计参数
    • 假设检验:用于对特定的总体参数值进行决策,当判断一个参数是否小于、大于或者不等于某一特定值时,使用假设检验

    当然,合适的置信区间也可以证明某个参数是否小于、大于或不等于某一特定值。因为,如果假设值落入置信区间,则不能拒绝假设,因为假设值在置信区间内,我们就不能认为假设值是异常的。

    关于均值Z检验的“已知标准差”

    同第八章已知标准差的算法一样,研究已知标准差的检验让驾驶假设检验的基本原理变得简单。有了已知的总体标准差,可以使用正态分布并且计算出p值。对于后面几章,理解假设检验的概念非常重要。

    9.2 对均值的t检验(标准差未知)

    (建议对比“8.2 对总体均值的置信区间的估计 t分布”进行阅读)

    总体标准差未知,我们就使用样本标准差。如果假设总体服从正态分布样本均值将服从自由度为n-1的t分布,这样就可以使用对均值的t检验。(当然,老生常谈,只要样本容量不是特别小,即使总体并非正态分布,但其实依然可以使用t检验)

    [t=frac{ar{X}-mu}{frac{S}{sqrt{n}}} ]

  • 相关阅读:
    使用tcmalloc编译启动时宕机
    使用tcmalloc编译出现undefined reference to `sem_init'
    使用AddressSanitizer做内存分析(一)——入门篇
    VIM-美化你的标签栏
    Entity Framework Code First (六)存储过程
    Entity Framework Code First (五)Fluent API
    Entity Framework Code First (四)Fluent API
    Entity Framework Code First (三)Data Annotations
    Entity Framework Code First (二)Custom Conventions
    Entity Framework Code First (一)Conventions
  • 原文地址:https://www.cnblogs.com/G-Aurora/p/13773853.html
Copyright © 2011-2022 走看看