转自:https://www.sohu.com/a/134414348_455817
首先看一个长相标致的箱线图。水妈模拟了一个样本数据,是学生期末考试得分,箱线图如图1所示。
图1 学生期末考试成绩箱线图
看图说话,注意以下几个点:
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。
在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成“异常值”就好。
以上是解读箱线图最基本的三要素。虽然箱线图也能看分布的形态,但人们更习惯从直方图去解读分布的形态,而非箱线图。在了解了箱线图之后,我们今天着重讲两个事情。
第一件事情,不是所有的数据都适合画箱线图,不信,请看学生画的丑图。
图2 丑图示例
这几组箱线图看着不舒服,主要原因是,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多刺眼的异常值。这种情况的出现,有两个常见的原因。第一是,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二是,样本数据特别少,数据一少,就有可能出现各种诡异的情况,导致统计图长得对不起观众。
如果你画出的箱线图是这样的,那么有两个解决办法。第一,如果数据取值为正数,那么可以尝试做对数变换。对数变换水妈必须墙裂推荐,称得上画图界的整容神器,专治各种不对称分布、非正态分布和异方差现象等。图3就是整容前后的一组箱线图。你说我不想做变换,那么可以采取第二种解决办法,那就是,不画箱线图。
图3 对数变换前后的箱线图
以上是第一点要说明的,不是所有数据都适合画箱线图。第二点要说明的,更加重要的,那就是箱线图应该怎么用。答案是,配合着定性变量画分组箱线图,作比较!分组箱线图是水妈最喜欢的统计画图工具,没有之一。
如果只有一个定量变量,很少用一个箱线图去展示其分布,而是更多的选择直方图。箱线图更有效的使用方法,是作比较。我们举两个栗子。
第一个例子,我上课经常讲。假设我现在要比较男女教师的教学评估得分,用什么工具最好。答案是箱线图。没有比较就没有伤害,大家看图4能够明显感觉到箱线图是更有效的工具,能够从平均水平(中位数),波动程度(箱子宽度)以及异常值对男女教师的教学评估得分进行比较,而直方图却做不到。
图4 进行比较时,箱线图是更有效的工具
第二个例子,来自R语言里面的boxplot的example,水妈觉得很好看,拿来跟大家分享。这个箱线图略复杂,共涉及3个变量。定量变量是牙齿生长长度,体现在图形的纵坐标,也就是箱子展示的内容。第一个定性变量是维他命C的剂量,三个水平(0.5mg,1mg和2mg),体现在横坐标,所以一共有3组箱线图;第二个定性变量是食用的食物,是维C还是橙汁,分别用黄色和橙色展现,所以每组箱线图里又包含两个箱子。
图5 来自R语言的箱线图示例
从图5当中,可以得到这些结论:
随着使用剂量的增加,不管食用的是哪种食物,牙齿生长长度的平均水平(中位数)都在增加。
当使用剂量为0.5mg和1mg时,食用橙汁带来的牙齿生长的平均长度(中位数)要比食用维C高,波动程度也相应更大。
当使用剂量为2mg时,食用两种食物带来的牙齿生长平均水平(中位数)相当,食用维C的牙齿生长长度波动相对更大。
以上是今天跟大家分享的箱线图,总结一下:
-
箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。
-
当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。
-
当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。
-
箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。