zoukankan      html  css  js  c++  java
  • 统计学--第一类错误和第二类错误的关系是什么

    当假设检验拒绝了实际上成立的零假设时,所犯的错误称为第一类错误,其概率用α表示。

    当假设检验接受实际上不成立的零假设时,所犯的错误称为第二类错误,其概率用β表示。

    第一类错误解释:

      比如,某公司生产的100台手机里有5台是次品,所以次品率就是5%。但质检团队事先不知道这个信息,于是他们需要通过假设检验来验证。首先,质检团队假设次品率不超过5%,那么他们认为一次抽样是抽不到次品的(统计学中小概率事件的定义:概率小于5%的事件被认为在一次试验中不会发生)。然而,当他们随机抽取一个手机来验证假设时,由于里面确实存在次品,谁也无法保证绝对就抽不到次品。所以,如果现实中他们恰好抽中了一个次品(抽中的概率是5%),然后他们就会下决定说:“在只有5个次品的情况下,一次抽样我们认为是抽不到次品的,但现在我们真实地就抽到了次品,于是,我们拒绝次品率不超过5%的假设,怀疑这100台手机里的次品超过5台。”很明显,他们犯错了,而犯错的概率就是那5个次品所占的比例:在原假设为真的情况下,他们仍有5%的可能性抽中次品,所以犯错的概率也就是5%。因为抽中次品我们就会拒绝原假设,拒绝原假设,我们就犯错了(第一类错误:H0实际为真而拒绝H0),所以,此时犯错的概率就等于抽中次品的概率。类似的,如果我们人为地规定低于5%的事件是小概率事件,在一次试验中不会发生,那么我们就注定了会有5%的可能性犯错,因为人为规定的那些小概率事件在现实中是可能发生的,而发生的概率就是我们规定的5%,即犯错的概率便等于小概率事件发生的概率。

    第二类错误解释:

      接下来,我们再来看看第二类错误及其概率的大小。仍然用上述例子进行说明,唯一变化的是现在100个手机中实际有10个次品,即同样的H0假设(次品率不超过5%)现在变成假了。于是,质检团队仍先假设这100台手机中次品小于5个(H0),一次抽样,他们获得了一个正品,然后他们就说现在还不能拒绝H0,可以默认里面的次品数低于5个(统计学上不说接受H0)。同样地,他们又犯错了,因为实际上的次品有10个,即H0是假的,他们需要拒绝H0可他们没有。那他们犯这个错误的概率是多大呢?90%。没错就是这么大,你可能会感到惊讶。但这其中的逻辑是,在这个检验中,他们要做出正确的判断就需要拒绝H0,而拒绝H0需要他们一次抽样就抽中次品,因为次品个数是10个,正品是90个,所以,只要他们抽中正品,他们就会犯错,因而他们犯错的概率就是抽中正品的概率,即90%。直觉上也是这样。

    两类错误的联系:

      对于两类错误的联系,下面这张图你可能并不陌生,相信在看完上文后能有助于理解。下图中红色阴影部分的面积为α,即第一类错误犯错的概率;黑色的阴影部分的面积为β,即第二类错误犯错的概率。在进行具体解释前,让我们先从一个现实生活中的例子说起。

       统计学中认识的第一对概念就是总体与样本,这里我想特别澄清一点的是把样本想象成固定的会限制我们的思考。总体和样本的关系是一对多的,理论上一个总体我们可以抽取无数个样本量相同但本质上不同的样本。比如我们想检验北京大学男生的平均身高是否为1.8m(H0:总体均数为1.8m),那么北京大学所有男生的身高数据就是我们这个案例的总体。之后我们从总体中随机抽取100名男生测量身高,这100名男生的身高就是一个样本。当然,我还可以获得很多其他的样本,特别注意,这里的样本不是一个一个学生,而是一个由100个学生组成的集体。

      在统计学上,我们通常会把样本称为样本点,如果你结合样本均数来理解就会很清楚为什么要加一个“点”字。首先,每一个样本都会计算出一个样本均数,每一个样本均数其实都是X轴上的一个点,有的样本均数离总体均数近,而有的离总体均数远。当我们抽中的样本计算出来的样本均数离总体均数远的时候,即两者差异较大时,我们就会倾向拒绝两者相等的假设。所以,即便实际上H0假设正确,数轴上依然会有一些点与总体均数的距离较远,当这些点对应的样本被我们抽中时,我们就会做出拒绝H0的决定,从而我们就会犯错了,这便是第一类错误的发生逻辑。

      那第二类错误怎么理解呢?要犯第二类错误,那么意味着H0(总体平均身高为1.8m)是假的,实际上可能是1.85m。这其中会出现一个比较绕的点是,由于H0和事实不一致,所以H0所代表的总体和实际研究的总体也不一样。在本例中,一个是均数为1.8的总体(上图中的虚线总体);另一个是均数为1.85的总体(上图中蓝色部分的总体)。我们用假设检验进行判断时用的是第一个总体,即依据第一个总体的均数来计算检验统计量并判断是否要拒绝原假设,因为我们假设所获得的这个样本是来自于第一个总体的。但我们计算犯错概率时,用的是第二个实际总体,即我们这个样本并不是来自第一个总体,而是来自第二个实际的总体,在这个实际的总体中,会有多少样本点导致在前一步计算检验统计量时不拒绝H0。这一点理清之后,你可能就会豁然开朗。

      类似刚才的思路,我们有可能在实际均数为1.85的总体中抽出一些样本(上图黑色阴影部分所代表),而通过这些样本计算的样本均数与1.8差异不大,从而让我们不拒绝H0(因为这些样本不处于拒绝域,即红色阴影所代表的部分),进而导致第二类错误的发生。而计算错误发生概率大小,就是在实际1.85的总体中那些与1.8距离较近的样本点所组成的集合所占的比例(上图黑色阴影部分面积在实际总体所占的比例),正是这些集合的存在会让我们不拒绝H0而犯错。

      通过上述说明,对照图你可能就能理解,为什么我们会说减少第一类错误的发生概率就会增加第二类错误的概率,因为,第一类错误的概率是我们根据检验水准人为设定的,当我们把检验水准从0.05提高到0.01时,我们减少了图中红色阴影的面积,但增大了图中黑色阴影的面积,该面积即为第二类错误发生概率。另一个常见的问题是为什么只有增加样本量才能同时减少这两类错误的犯错概率,简单理解,就是由于样本量的增加会降低标准误的大小(标准误=S/根号N,样本本量N越大,标准误越小,反映在图形中就是两个总体(假设总体和实际总体)变得更“细瘦”,所以重合的部分越少,由此代表犯错概率的图形的面积也会变小。

     
    作者:Brick何
    链接:https://www.zhihu.com/question/20993864/answer/958223021
    来源:知乎

    假设检验中,为何要避免第一类错误,而不避免第二类错误?

    假设现在有一批药需要测试疗效。

    H0:这批药没效果

    H1:这批药有效果

    α=H0真时拒绝H0,拒真错误。对应到现实里是,拒绝没效果=有效果。我们认为一批药有效果以后将给病人吃,但其实这批药是没效果的,那病人吃了以后就死了呀,这个α对应的是人生命的风险,是消费者风险。

    β=H0错时接受H0,取伪错误。接受无效,一批药明明有效确认为它无效。这个充其量就是药厂不会生产这种药,但还有什么阿司匹林,阿莫西林其他的药可以生产,威胁不到人的生命,是一种生产者风险。

    生命高于金钱,所以在控制两类错误时,我们优先控制typeI error,一般都是规定好的0.05,然后想办法降低typeII error。

    关于α和β,和第I和第II类错误的命名我觉得也是这样的,因为人们觉得第I类错误比第II类错误更加重要,而希腊字母里α也排的比β前,越重要的东西越放在前面。

    作者:逍遥温温
    链接:https://www.zhihu.com/question/37437658/answer/332072770
    来源:知乎

  • 相关阅读:
    如何实现序列化为json
    unity中camera摄像头控制详解
    eclipse配置c开发环境
    uml和模式01
    angular2开发01
    微信公众平台开发01
    最新无线网卡驱动安装
    交换ctrl和caps_loack的新方法
    web.xml文件详解
    设计模式中的里氏代换原则
  • 原文地址:https://www.cnblogs.com/huangjiyong/p/13636029.html
Copyright © 2011-2022 走看看