zoukankan      html  css  js  c++  java
  • 可视化学习笔记3:可视化分布

    有时候,显示数据的实际分布情况是最佳选择。分布图可能不是正态的!可能存在异常值,使均值出现严重的偏差。条形图等可以隐藏这些问题。你在一开始探索数据时,也需要查看分布图。

    直方图

    直方图是将值分组成多个值范围的条形图。例如,假设有一组年龄数据:29 岁、69 岁、44 岁、69 岁、31 岁、43 岁、32 岁、62 岁、8 岁、53 岁。你可以将年龄按每 10 岁分组,然后算出每个年龄范围的人数。如下所示:

    直方图示例

    从图中可以清晰地看出年龄分布情况。我给出了数据很少的示例,但是假设有成百上千个数据点。除非使用直方图,否则无法显示数据分布情况。

    值的范围通常称为组距,将数据分组的过程称为分组。明显我对数据进行了分组用的是动词形式。要学会使用正确的术语,这样才能与其他分析师交流。

    你将经常用到直方图来可视化连续变量的分布情况。但是,你需要了解一些信息。组距和界点的位置会显著影响到分布图的外观。

    分组有个不错的属性,即对直条中的数据求平均值,这样可以减少干扰,但是如果组距太宽,分布图可能就会丢失细节信息。但是,如果组距太窄,可能就会出现太多的干扰,可能会丢失有意思的细节。此外,界点的位置会影响直方图的外观。有时候,你需要进行尝试并犯错,才能得出正确的组距。

    箱线图

    箱线图是一种常见的可视化图表,使用区间来显示一般分布形状。区间是大于某个百分比的数据的值。例如,50% 区间是指大于 50% 的数据的值,通常称为中间值。95% 区间是指大于 95% 的数据的值。所有箱线图都使用 25%、50% 和 75% 区间,通常称为四分位数。通常,还会使用箱须(或侧栏)来表示更大的区间,或者最小区间和最大区间。你还会经常看到箱线图显示了异常值、大于或小于箱须值的数据点。

    从图中可以看出,用颜色标注区间使你能够了解潜在分布情况。如果区间在中间值两边保持对称,分布图就可能是正态的。但是,如果区间揉成一团,则表明分布图是偏斜的。

    对于箱线图要谨慎使用。因为你将分布图简化成大约五个数字,有可能使非正态分布看起来像正态的。

    左侧的直方图显示的是非正态分布,而右侧的箱线图使数据看起来似乎是正态的。

    小提琴图

    小提琴图会显示平滑的数据分布图。分布图使用一种叫做核密度估计的方法进行近似估计,你不需要了解该方法,但是该方法很神奇,你可以在此处了解详情。和箱线图相似,通常也会包含区间,但是也会显示实际数据分布。

    小提琴图几乎适合所有情况。它们会展示非正态分布(箱线图则不会)。但是,平滑操作可能会丢失细节,对于少量数据来说,经常会失败。个人而言,我喜欢使用小提琴图而不是箱线图,但是有时候可能需要快速简单的分布图。

    纸带记录图

    很多时候,我喜欢用纸带记录图直接绘制出数据。纸带记录图用点表示每组的实际数据。如果没有太多数据,可以直接沿着直线绘制数据。如果数据很多的话,点经常会重叠,所以可以在无值维度中随机地散布数据,或者使用幻灯片。当然,如果有太多数据的话,就会让人困惑,所以纸带记录图并非适合所有情况。

    可视化是一种艺术

    我刚刚介绍了几种可视化分布图。你使用哪个呢?该如何从这些图表之间做出选择呢?

    可视化就像一门艺术。你需要思考你有哪些问题,什么样的选择最适合回答这些问题。你还需要考虑根本数据。如果有很多的数据,纸带记录图可能就不适合了。如果有很少的数据,小提琴图和箱线图可能不适合。首先,你需要尝试几种图表,多试试并犯错。有了几次经验之后,你就更善于做出最佳选择了。

  • 相关阅读:
    51nod 1227 平均最小公倍数
    51nod 1238 最小公倍数之和 V3
    「G2016 SCOI2018 Round #2」B
    51nod 1258 序列求和 V4
    2301: [HAOI2011]Problem b
    POJ
    NOIP2017解题报告
    笔记-[ZJOI2014]力
    题解-Little C Loves 3 III
    李超线段树
  • 原文地址:https://www.cnblogs.com/chickenwrap/p/10182781.html
Copyright © 2011-2022 走看看