请勿歪曲数据
你有责任确保以最真实的方式展示数据。人们的确会在可视化图表中撒谎,欺骗他人。最常见的方法是以各种方式歪曲条形图。
下面是福克斯新闻在 2012 年展示的一个图表示例(他们总是犯这种错误)。
上图想要显示变化的税率。看起来像很大的变化(5 倍增长)。但是,如果再去看实际数字,就会发现仅从 35% 增长到了 39.6%,只有 13% 的增长( (百分之 4.6 的增长点)。人们容易认为条形图的基线是 0,但是此图的基线为 34%,超出了我们的设想范围。此图的创建者可能想故意欺骗观看者,使他们认为税率出现了很大的变化,实际上并非如此。
如果要重新创建该图表,准确地显示各个值,那么变化几乎可以忽略。
畸变因子
这就要提到 Edward Tufte 在《Visual Display》中提出的一个概念,即畸变因子。没错,又是他,强烈建议你阅读这本图书。畸变因子会将图表的效果大小与数据的效果大小进行对比。效果是指要对比的差异。例如,在税率图表中对比的是直条的高度,所以效果是右侧直条比左侧直条高多少。
要计算畸变因子,需要将图表的效果大小与数据的效果大小相除。我将使用下图(也是很好的图表垃圾反面示例)作为示例进行讲解。
实际上不好确定医生图片的哪个方面表示数据。高度?面积?实际上,医生高度与百分比成比例,但是我们实际上将视觉面积看做数据编码。因为我们对比的是医生图片的面积,我将使用这一面积来计算图形效果。在最大的医生图片周围画个长方形,高 437 像素,宽 181 像素,所以面积约为 79000 平方像素。中间的医生图片面积约为 30500 平方像素,小的医生图片的面积约为 16500 平方像素。
我们算算 1964 和 1990 之间的对比畸变因子。视觉效果是 1964 年的医生大了多少。即 (79000 - 16500)/16500 = 3.79,所以医生大小之间的差别是小医生图片大小的 379%。实际数据的效果是 (27-12)/12 = 1.25,或者数据差别是比 1990 年数据点大 125%。除以这些值,畸变因子是 3.79/1.25 = 3.03。
练习题
上面的福克斯新闻条形图的畸变因子是多少?以下是一些实用数据:小的直条高 27 像素,大的直条高 146 像素。
-
4.57
-
33.54
-
0.030
-
1
折线图和不规则的区间
条形图并非是唯一可以被歪曲的常见图表。经常你将看到折线图以不规则区间连接线条。例如,下图跳过了 1999 年和 2002 年,但是图形元素按照正常区间放置,歪曲了数据。
折线图显示了数据点之间的变化速率。如果区间像上图一样不规则,变化就过于强调了。
1998 年和 2000 年之间的变化似乎很大,但是如果在二者之间填上 1999 年的数据,并适当增加空间,增加幅度就可能和其他年份一样了。2001 年和 2003 年之间的变化比其他区间的要小,但是实际上是两年间隔,而不是一年,随着时间推移的变化幅度比实际的看起来要大。
这篇文章(作者:Stephen Few)很好地解释了如何使用具有不规则区间的折线图。