zoukankan      html  css  js  c++  java
  • 读书笔记:《思考的乐趣:Matrix67数学笔记》第4章 统计数据的陷阱

    《思考的乐趣:Matrix67数学笔记》第4章讲了几个统计学上的陷阱,由于现在流行的大数据与统计学很有渊源,所以认真读了这一章,在《大数据时代》中指出只考虑相关性就够了,而不考虑因果关系,从这几个例子上可以看出这种观点是非常的可怕。

    1)因果关系颠倒:

    去救火的消防员越多,火灾损失越大。

    实际是因为火灾损失大,才会派很多的人去救火。

    2)第三个因素影响2个事件显出了相关性

    例一:冰淇淋销量增加,鲨鱼食人事件也会同时增加。

    如果根据这个相关性,政府部门把冰淇淋销售点全部取缔就太可笑了,真实情况只是因为夏天来了(第三个因素)。

    例二:足球队的获胜率与队员的到球袜长度成正比。

    根据这个相关性,不会有愚蠢的教练给球员都换上长袜子吧,实际上只是球员的身高(第三个因素)对比赛有影响。

    例三:手指发黄的人,得肺癌的可能性越大。

    医生不会让你把指头染成粉色吧?实际原因很可能手指发黄和得肺癌都是因为吸烟造成的。

    例四:按这种道理,吸烟和肺癌有没有相关性?

    可能癌症引起了烟瘾,也可能是存在某种基因同时引起了癌症和烟瘾。

    3)统计学中的辛普森悖论

     
    男性有效
    男性无效
    女性有效
    女性无效
    新药
    35
    15
    45
    105
    旧药
    90
    60
    10
    40

    对男性来说,新药对70%的男性有效,而旧药只有60%;对女性来说,新药对30%女性有效,而旧药只有20%;但合起来就出现悖论了,新药对40%的人类,而旧药为50%。新药对男性有效,对女性也有效,而对整个人类则无效!

    问题出在了样本没有随机选取,新药主要试验在了女性身上,这个例子也说明了统计时所用的样本一定要随机。

  • 相关阅读:
    TSQL存储过程:获取父级类别图片
    ASP.NET小收集<7>:JS创建FORM并提交
    JS收集<4>:限制输入搜索串
    js编码风格
    学习日志0504
    记于20120508日晚
    NHibernate中的Session yangan
    SQL Server2005排名函数 yangan
    让IE8兼容网页,简单开启兼容模式 yangan
    Log4Net跟我一起一步步 yangan
  • 原文地址:https://www.cnblogs.com/speeding/p/3383128.html
Copyright © 2011-2022 走看看