zoukankan      html  css  js  c++  java
  • 斯坦福【概率与统计】课程笔记(五):EDA | 箱线图

    介绍箱线图之前,需要先介绍若干个其需要的术语

    min:整个样本的最小值

    max:整个样本的最大值

    Range:即整个样本的取值范围,Range = max - min

    Inter-Quartile Range (IQR):四分之一range,即通过取3次中位数(median),将整个range分成四等份,其中间的两份就是IQR,下面图示说明一下:

    计算方法:

    1. 先对整个样本值集合计算median,将数据分为两等份:

    2. 分别对前后两份数据再次计算median:

     

    3. 则Q3 - Q1 = IQR


    使用IQR检测outliers:

    简单说,就是一种规则而已:小于Q1 - 1.5倍IQR的数据,以及大于Q3 + 1.5倍IQR的数据,都是疑似的异常点:


    箱线图的绘制,依赖5个数字:min、Q1、M(median)、Q3、max,课程里起了个名字叫:Five Number Summary

    1. 左边的箭头,表示range,即最小值到最大值的范围
    2. 右边的箱子,表示IQR,其中箱子的上沿是Q3、下沿是Q1,中间的线是M。注意箱子的高度有意义,宽度没意义
    3. 箱子下面的一竖一横两条线,表示最小有效范围(即从Q1向下到Q1 - 1.5*IQR)【上图中min和最小有小范围重合了,所以不存在超小的异常值】
    4. 箱子上面的一竖一横两条线,表示最大有效范围(即从Q3向上到Q3 + 1.5*IQR)
    5. 箱子最上面的那个点,表示整个样本的最大值,但其不在有效范围,是疑似异常值

    下面这种箱线图的表示方法,把样本的分布和箱线图并列画在一起:

    可以看出一些规律:箱子范围内,M和Q1距离近,落在其中的样本点也最密集,M和Q3距离远,落在其中的样本点也稀疏。所以通过箱线图的M和Q1、Q3的位置,可以相对地判断样本分布的位置和疏密程度。


    箱线图的另一个用处是:可以同类特征相互比较:

    上图中是奥斯卡影帝影后的年龄箱线图比对,可以看到很多有意思的现象:

    1. 影帝的获奖年龄普遍大于影后,说明奥斯卡比较青睐成熟男演员和年轻女演员
    2. 影帝获奖年龄在40-45岁左右为最高峰;影后在30-35岁为最高峰;
    3. 影帝的年龄范围小于影后,最小的影后21岁,最大的影后80岁
  • 相关阅读:
    Thymeleaf中,将字符串作为js函数的参数
    测试开发面试题总结
    013_RomanToInteger
    Python列表中查找某个元素的索引(多个)
    Python“函数式编程”中常用的函数
    009_Palindrome Number
    Python字符串方法总结(一)
    007_Reverse Integer
    002_Add Two Numbers
    pycharm上传代码到github
  • 原文地址:https://www.cnblogs.com/zhongmiaozhimen/p/11327971.html
Copyright © 2011-2022 走看看