zoukankan      html  css  js  c++  java
  • 辛普森悖论

    辛普森悖论

    今天刚开始看<商务与经济统计>,看到辛普森悖论,顿时蛮有趣的,所以打算记录下这个。

    书中是给出了这么个例子:

    有两个法官勒斯特和肯德尔,他们分别在民事和市政主持审理案件,他们的部分案件被提出上诉。我们通过上诉法庭维持原判的比例高低来区分哪个法官更出色。

    首先给出了勒斯特和肯德尔的一组数据:

    表格1

      勒斯特 肯德尔 总计
    维持 129(86%) 110(88%) 239
    推翻 21(14%) 15(12%) 362
    总计(%) 150(100%) 125(100%) 275

    从上面的表格不难看出肯德尔比勒斯特更优秀,但是事实真是这样吗,我们再来看下另一张表格:

    表格2

      勒斯特 勒斯特  
     判决 民事庭 市政庭 总计
    维持 29(91%) 100(85%) 129
    推翻 3(9%) 18(15%) 21
    总计 32(100%) 118(100%) 150

    表格3

       肯德尔 肯德尔   
    判决   民事庭 市政庭  总计 
    维持  90(90%)  20(80%) 110 
    推翻  10(10%)  5(20%)  15 
    总计  100(100%)  25(100%)  125 

    从表2和表3可以看出无论是民事还是市政,勒斯特都大于肯德尔,这与表1的结果完全相悖,这就是"辛普森悖论"。

    所谓"辛普森悖论"就是在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

    那么上述两个结果哪个对呢?当然是第二个,因为民事和市政的权重是不一样的,不能简单的通过相加来求解。

    用代数来表示就是a/b+c/d != (a+c)/(b+d).

    所以在进行多组的统计时候,要充分考虑多组的权重这个隐含的因素,不能直接相加进行综合。进行统计分析时候,要划分好颗粒度。

    下面引用一篇博文来更深入的理解辛普森悖论 《辛普森悖论:诡异的男女比例》

    大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标。

    一天,我拿出两个大学(P 大和 T 大)的统计数据开始研究。“物理学院,P 大男女比例大于 T 大;数学科学学院,P 大男女比例又是大于 T 大⋯⋯哇,怎么所有专业 P 大的男女比例都高于 T 大啊⋯⋯那还犹豫什么呢,我肯定报 T 大了!”正当我刚刚心意已定的时候,突然看到了统计数据的最后一行:P 大的总体男女比例低于 T 大!“什么?!有没有搞错?怎么可能 P 大的所有专业男女比例都高于 T 大,但是整体男女比例却低于 T 大了呢?!肯定是哪里算错了吧⋯⋯”于是我拿出计算器狂敲,却发现没有任何一个计算错了的数据。这种情况真的可能发生吗?

    统计数据不说谎

    多说无益,请看下面编造出来的一份男女比例数据(其中假设两所大学都只有物院和外院两个专业):

    物院的数据:

      男生人数 女生人数 男:女
    P大 45 8 5.6:1(大)
    T大 101 51 2.0:1

    外院的数据:

      男生人数 女生人数 男:女
    P大 50 201 0.25:1(大)
    T大 9 92 0.10:1

    学校整体数据(即上述两个专业人数之和):

      男生人数 女生人数 男:女
    P大 95 209 0.45:1
    T大 110 143 0.77:1(大!)

    数据可不会是骗人的,不信可以自己动手验算一下,真的出现了这种违背常理的情况!这种现象被称为“辛普森悖论”。虽然这么叫,但其实这不是个真正的悖论,它内部没有包含逻辑上的矛盾,只是有些违背人们的常理罢了。

    辛普森悖论的直观认识

    可能有些人还是一头雾水,虽然数据是如此没错,可还是不能理解到底发生了什么使得结论如此古怪。让你构造一个类似的数据,恐怕你也很难直接想得出来吧!人们对几何图形的想象能力总是高于对数字和字母的想象,因此为了更直观地表现出辛普森悖论,我们看下面一幅向量图:

    http://guokr.com/gkimage/1x/r0/gm/1xr0gm.png

    图中,黑色的线代表 P 大数据,红色的线代表 T 大的数据。A p 点的横坐标为 P 大外院女生人数,纵坐标为 P 大外院男生人数;B p 点的横纵坐标则分别为 P 大总女生人数和总男生人数。A t 和 B t 点的意义与之相对应。

    设坐标原点为 O,则 OA p 的斜率表示的就是 P 大外院的男女比例,A p B p 表示的是 P 大物院的男女比例,OB p 表示的则是 P 大总男女比例;T 大的各线段斜率意义与之对应。

    如此一来,一切都变得清晰起来了。辛普森悖论反映在这张图上,就成了一个显然的事实:在 P 大的外院、物院两个向量的斜率分别大于 T 大的两个向量的斜率的条件下,总人数向量的斜率当然不一定哪个大呀!根据这个直观的理解,你也可以随意编造能产生辛普森悖论的数据了吧!

    知道了辛普森悖论这一事实之后,我们以后对待统计数据就要更加小心了。在数学中,经常会出现这种出乎人们意料的惊人事实,所以还是一定要学好数学啊!

     

     

     

     

     

     

  • 相关阅读:
    linux内核中的subsys_initcall是干什么的?
    linux内核中的MFD子系统
    linux内核中有哪些子系统(框架)呢?
    软件架构师书籍
    求最大公约数和最小公倍数
    写一个函数判断字符串中"{"与"}","["与"]","("与")"匹配,"{"必须在"}"前面,"["必须在"]"前面,"("必须在")"前面,可以嵌套
    请用程序写出冒泡排序算法,并做相应改进使得排序效率更高
    50个必备的实用jQuery代码段+ 可以直接拿来用的15个jQuery代码片段
    js同比例缩放图片
    oracle 10g函数大全--其他函数
  • 原文地址:https://www.cnblogs.com/rcfeng/p/4415880.html
Copyright © 2011-2022 走看看