zoukankan      html  css  js  c++  java
  • 笔记:数据之美

    数据之美

    一、 了解数据

    二、 可视化的意义

    三、 掌握可视化设计的原材料

    1.    可视化组件:

    视觉暗示、坐标系、标尺、背景信息

     

    2.    整合可视化组件

    四、 不了解数据,一切皆是空谈

    1.    可视化过程

    流程图

    2.    分类数据可视化

    a)     分类

    数据是直接的,每个分类都有一个值。可以使用条形图和符号图,特点对比

    图表类型

    优势

    劣势

    条形图

    长度作视觉暗示,分类间的差异明显

    每个矩形都要从零坐标开始

    只能横向或向上径直延伸

    符号图

    面积做视觉暗示,难以区分细微差别

    可以在二维空间以任何方式组织图形

    便于展示差异数量级较大的数据

     

    b)     整体中的部分

    饼图:角度做视觉暗示,总和为100%,不适用于分类较多的情况

    堆叠条形图:通常用于显示投票结果,也可用于原始计数

     

    c)     子分类

    用于有层次的数据

    树图:紧凑的空间显示层次结构,通常面积和颜色结合使用

    马赛克图:允许在一个视图中进行跨分类比较

     

    d)     看清数据的结构和模式

    回归到数据:分类数据可以很直观的看到数据集的范围、分布情况、再看结构和模式,如果一些分类有着同样或差异很大的值,要分析原因

    3.    时序数据的可视化

    a)     周期

    条形图:对离散的时间点很有用,关注数值,更容易区分变化

    折线图:通过方向这一视觉暗示更注重变化趋势的体现

    散点图:重点在数值上,趋势不是那么明显,尤其在数据量小的时候,可以用线连接起来显示趋势(散点图可以使用LOESS拟合曲线)

    点线图:相对条形图,更聚焦于端点

    径向分布图:与折线图类似,但是围成一圈

    日历:对于星期周期模式比其他图看起来更方便

     

    b)     循环

    存在数据循环重复的情况下,比较每个周期同一天的数据就有意义了。

    折线图:可以把日子按循环周期分成段,用多条重叠的折线比较循环情况

    星状图:也可使用星状图圆周表示时间循环,多条层叠的折线圈表现循环情况

    日历热区图:便于从所有角度观察数据,容易找到数值对应的日期,但颜色作为视觉暗示难以区分较小的数据差异

     

    c)     寻找变化的意义

    回归到数据:时序数据注重随时间推移发生的变化,比发现变化更重要的是发现变化背后的意义。

    注:LOESS曲线法拟合曲线,可用于散点拟合为类似正太分布

    4.    空间数据的可视化

    a)     位置

    位置图:只关心单个位置的数据信息,可以在地图上画点,气泡大小表示数值

    联系图:表现不同地点之间的关系

    b)     区域

    等值区域图:在空间背景信息中可视化区域数据,使用颜色作为视觉暗示,不同区域根据数据填充颜色

    等高线图:线条表明地理分布数据的连续性,使用了密度

    c)     统计地图

    圆形统计图:整个地区依据数据用形状表示大小,而不考虑改地区实际大小,地理学的面积和边界将完全不存在

    基于扩散的统计图:保留地理学区域边界,但将边界延长,使区域面积与数据对等

    d)     统计图的优缺点

    地图:绘制地图(实际区域比例),尤其是等值区域图时,大面积的区域总是得到更多的注意,无论数据量如何

    统计图:延长了区域边界,使区域的边界与数值保持一致,但缺点是地理精度不够

     

    e)     寻找区域模式

    回归到数据:了解数据范围,然后寻找数据的区域模式,结合区域隐含的信息分析数据在不同区域的表现

    5.    多元变量

    a)     少数变量

    两个变量:横纵坐标表示两个变量的散点图,可以体现两变量间的相关性

    三个变量:引入新的视觉暗示,面积或颜色,表示第三个变量

    四个变量:同时引入面积和颜色,表示不同的变量,但已经不易理解

    b)     许多变量

    热区图:表格布局,所有行表示同一变量的不同取值,每列代表各不相同的变量,颜色代表数值

    平行坐标图:每个纵坐标代表一个变量,取值最小值在底端,最大值在顶端,根据每个变量的位置从左向右画线。如果所有变量正相关则所有线都是笔直的;如果两个变量负相关则一个变量的顶端与另一个变量的底端相连

    星状图:更关注个体多变量取值的情况,可使用一组星状图,每个星状图表示一个个体

    c)     多视角的使用

    什么是多视角:多元变量的情况也可以在不同维度上绘制很多同类图表,可以从不同的角度查看数据,效果更好。

    可参考的多视角方法:

    • 如果已分类的多重变量具有时间性和空间性,数据呈现自然分隔,形成图表矩阵,下图为按航空公司划分的航线数据。

     

    • 散点图矩阵可以代替平行坐标图显示相似关系,两两比较比一次弄清多重变量关系更直观

     

    • 同时使用多种图表表现数据

     

    d)     寻找数据间的关系

    寻找数据间关系时,可以把所有数据同时可视化,也可以从更简单直观的视角出发。两个变量的关系简单易懂,变量数量增多关系变得复杂。

    研究时不要进行假设,记住数据中没有包含的变量可能带来变化

    相关性和因果关系:要考虑所有背景信息,然后在指定因果关系

    1.    数据的分布

     

    中位数:(中间的线)代表中位数

    下四分位数:表示有1/4的数值低于该数值

    上四分位数:表示有1/4的数值高于该数值。

    四分位间距:上四分位数和下四分位数之间的范围被称为四分位间距

    边界:上/下限边界分别有下四分位数减去/加上3/2个四分位间距来确定

    异常值:如果最大值和最小值都在上下限内,那么绘制边界线只是为了确定范围。否则,所有上下限外的点都会被视为异常值

     

    a)     不只是寻找平均数和中位数

     可视化工具探索数据分布时要分析峰值、谷值、数据范围以及数据的分布情况。不只是平均数和中位数。原始数据的诗句分析和概要统计间的变化也更有价值。 

    五、     让可视化设计更为清晰

    建立视觉层次

    增强图表可读性

    • 允许数据点之间进行比较
    • 描述背景信息
    • 留白

    高亮显示重点内容

    注解可视化表达了什么

    • 解释数据
    • 统计学概念的解释
    • 排版的尝试

    从不同角度做一些计算

    六、     为读者进行可视化设计

    可视化的常见错误

    • 新颖的图表
    • 一切皆能可视化
    • 固守可视化的规则

    读者不同,数据展示也不同

    • 自己动手制作可视化图
    • 为某一位特定读者设计可视化图表
    • 为更广泛的读者设计可视化图表

    需要注意的事项

    • 数据的背景
    • 对概念进行指导
    • 以数据来叙事
    • 相关性

    可视化步骤整合

  • 相关阅读:
    hdu 2137
    hdu 2059
    hdu 2175
    hdu 1297
    hdu 1702
    hdu 1212
    hdu 1397
    [转]常见的碱性食品有哪些?
    [转]C#反射
    每个人都有自己的未来
  • 原文地址:https://www.cnblogs.com/zs-note/p/7444276.html
Copyright © 2011-2022 走看看