G-LAB四月份作业-数据可视化问题探讨
引子:
数据平台项目建设正在按照公司的计划开展执行中,作为平台建设项目参与者之一,感觉目前我们现有的MIS报表平台数据也不可谓不丰富,但是不论从提供给用户的数据多样性和数据展现的效果却往往缺总是赶不上我们用户对报表数据的预期和使用要求,这就使得作为数据管理部门的我们常常迷失在数据中,纷繁复杂的数据让我们无所适从。数据可视化作为解决这问题的有效手段,通过视觉的方式让数字易于理解。
数据可视化和信息可视化都是可视化的一种方式,数据可视化将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。信息可视化,旨在把数据资料以视觉化的方式表现出。信息可视化是一种将数据与设计结合起来的图片,有利于个人或组织简短有效地向受众传播信息的数据表现形式。
本文梳理了数据可视化相关内容,希望能给数据平台建设组的领导、同事们一些启发和帮助。
一、如何设计成功而有价值的数据可视化
1、什么是数据可视化?
塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
2、为什么要进行数据可视化?
无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
3、如何实现可靠的数据可视化
数据可视化包括数据的采集、分析、治理、管理、挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,或许是二维图表、三维立体视图,不管是什么样的信息图,最后由前端工程师创建对应的可视化算法及前端渲染和展现的实现。如果仅仅是能够将数据转化成漂亮的图表,设计出固定维度、不同式样的图表来解释你的观点,并不说明这样的结局就足够好。这只是一个简单的开始,只是一个美好愿望的萌芽。如果要成功报告结果,将你所分析的度量和数据有效地转化为有商业价值的见解,使其能够为基于事实所做的决策提供支持,那么还需要做更多的功课。
色彩提升信息可视化的视觉效果。在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类,强调和淡化、生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。当然,视觉效果要将企业品牌的色调融合进去,和企业的品牌文化保持高度的一致,这是一个最基本的常识。比如,如果企业的品牌色调比较热衷红色,你设计的可视化效果,就要有意识地朝着这个基调靠拢。但没有必要吻合,因为红色的可视化效果,通常都包含警示的韵味,所以,红色适合做预警、提醒和突出信息的功能。
排版布局增强信息可视化的叙事性。
动态增加信息可视化的视觉体验。在信息可视化的视觉表达中,动态地将相互分离的各种信息传播形式有机地融合在一起,进行有关联、有节奏的信息处理、传输和实现。最终的目的是,为了实现数据之间的联动,解释数据表现之间驱动和联系的关系。通过图表样式和色彩的运动,满足受众的视觉感受,同时将信息内容更加深刻而精简地传达给阅读者,使整个信息传达的过程更加轻松便捷。对于数据可视化有诸多工具,如:ECharts、iCharts、D3js、Flot、Rapha等功能都十分强大,但对于非专业可视化而又经常与图表打交道的职场人士来说,一款轻便易学而又实用的可视化软件则显得十分重要。比如cognos、tebleue等。
1)、谁是你的阅读者?
无论你是否在做一份传统的报表还是新式的信息图,首先问问自己有哪些阅读者看到这份报告?他们对将要讨论的事项了解多少?他们需要什么?、还有,他们会如何利用你要展示的信息和数据呢?
要特别强调需要明确清晰的分析目标和方法,因为只有明确分析目标,才能有一个良好的驱动过程。无论是目标驱动还是分析过程驱动,后续的数据分析工作和分析报告里所要呈现的全部内容事项都是紧紧围绕着这个目标主题而服务的。
2)、规划数据可视化方案
数据可视化方案,是一定是能够解决用户特定问题的。既然是能够解决用户特定的问题,那么这样的高度,是在基于你在深入地理解了这些数据的现象和本质的基础之上。简单来说,就是你的可视化方案,不仅懂得并且能够很好地解释数据分析的结论、信息和知识。并且管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。
举例来说,当企业的业绩不达标时(企业的业绩是否达标,关系到企业最关键的利益和存亡。)可视化方案的设计路径应该是这样的:
Step1,从整体运营出发,明确有哪些关键因素会影响成交和业绩。
比如:有效名单、demo品质、客服服务、产品属性等,相应地去看这些关键因素对应的KPI的表现,对整体的业绩来讲,这些因素都会是驱动因素,这些因素对应的KPI都会是对STV有直接驱动和影响作用的。这些驱动数据的可视化是基础,也是寻找解决方案最终的出发点和落脚点。因为,这些数据的表现,是关乎运营成功与否的最直接视图。
Step2,对关键因素深入分析确定是什么因素导致了业绩没达成,发现和挖掘导致业绩未达标的根本原因和问题。
比如:对比分析,逐一观测201601月-201612月全部关键因素对应的KPI的表现,对比成交业绩最高的月份和成交业绩最差月份的关键因素对应的KPI差异在哪里,能够快速定位出哪些方面、哪些因素导致业绩未达标。然后能够有针对性地驱动和帮助业务部门去改善。
追踪对成交和业绩有驱动和改善的行动方案的落地和实施进度,存在什么样的问题,是否存在行动方案的执行不力影响了业绩达标。
Step3,针对这些问题因素,有的放矢地去做改善和探索提升业绩之道。
否则,设计再商业绚丽的可视化图表,如果不能快速地得到信息和商业决策建议和方案就毫无意义。可视化仅仅成了虚假和欺骗,华丽而不务实的结果。基于准备好的全部的这些问题所得出的答案,就要开始定制你的数据可视化方案以满足每个决策者的特定要求。数据可视化始终都应该是为其受众专门定制的,这样的报告里只应包括受众需要知道的信息,且应将这些信息置于和他们有关并对他们有意义的背景下。
3)、给数据可视化一个清晰的标题。
当你的报告像一份报纸、杂志的新闻一样。从这个标题,就能给阅读者强烈的冲击。一个清晰的标题是能够很好地阐释报告和故事的主题,是对整个报告和故事概括的信息。当然,并不是鼓励运营分析人员去做“标题党”。好的标题,既不要模棱两可,也不要画蛇添足,只要解释清楚图表即可。这有助于帮受众直接进入主题。这样能让读者大致浏览文件,并能快速抓住核心所在。尽量让你的标题突出。
4)、将数据可视化和你的策略、方案联系起来
如果数据可视化的目的在于介绍能解决具体的、可衡量的、可执行的、有相关性和时效性问题的数据,那就在开场白里加上这些问题。稍后再和你的策略连接起来以理清这些数据的定位,因此,读者便能立刻明白可视化数据的相关性和价值。最终,他们便能更好地参与进来,并能够更明智地利用这些信息。数据可视化,最终时为了企业良好的运营而服务的,这是它的商业价值。如果你不关注企业的战略和行动方案,很难建立起具有联动价值的信息图。比如,企业执行的行动方案,通常是为了达成和实现企业的战略目标,通过这样的手段实现精益管理和精益运营。所以,可视化的解决方案要能够做到,行动方案对战略目标的驱动效果、个体、团队对部门整体指标、KPI的驱动和影响效果。只有建立起来具有联系的信息视图,才会获得有价值的数据可视化。
5)、明智地选择你的展示图表
不管使用哪一类图表,bar图、折线图、雷达图等等,每一种图表都有它自身的优点和局限性。你无法找到完美的可视化图表。但你可以通过尝试混合展现方式让可视化表现再人性化一点点。所以的可视化效果,都应该尽可能简单精准地传达讯息。这就意味着:不论有多新潮、多好看或者多绚丽,这都不是设计数据可视化的初衷。诚然,我们在持续地并且永不满足地追求数据之美。但最佳的平衡点在于,用合适的数据可视化开阐释恰到好处的信息和知识的价值之美。
只用有关联能传达重要信息的且为你的受众所需要的图形。
无需填满页面的所有空白——太多杂乱的内容只会干扰对重要信息的接收,会让人太难记住,又太容易忽略。
恰当运用色彩,增加信息深度。同时要注意有些色彩具备潜在含义。举例来说,红色被认为是代表警告或危险的颜色。适合预警额。
不要使用太多不同类的图表、表格和图形。如果需要对比各种图表,要确保你阐述数据时使用的是同类的图表,这样才能便于互相比较。
6)、在恰当处备注文字说明
文字说明有助于用语言解释数据,并能在情境化图表的同时增加内容的深度。数字和表格或许仅能提供快照,而文字说明则让人对关键处了解更多,加以评论并强调其内涵。引导观看者去思考图形的主题,而不是方法论、图形设计、图形生成或其他东西。
避免歪曲数据原本的意图。让庞大的数据集连贯一致。吸引读者将不同的数据片段进行比对和比较,突出重点和优劣。主旨要相当明确:描述、挖掘、作表、可视化自我解读。
二、如何选择并做出最能展现问题的图表?
互联网与不断出现的便捷工具,让所有人都可以无须具备数据或相关专长,就可以简单、低成本地将数据做成直观的可视化图、表。
这当然是积极的变化,但也助长了一种本能倾向,即让数据可视化成为了一种汇报时的必备“流程”,开始无目的地进行可视化,结果做出的图表差强人意,比如机械地把电子表格单元转换为图表,只能提供支离破碎的信息,或者无效却扰乱视听影响决策的信息,进而无法传达出完整的理念。
正如演讲和沟通专家南希·杜瓦特(Nancy Duarte)所说:“不要让听众感觉你在展示一张图表,而要回顾人的行为,描述曲线变化背后的事件。不是“来看我们的三季度财报”,而是“来看我们为什么没完成目标”。”今天我们就来说说如何在呈现可视化数据的时候匹配正确的图表。
1、陈述型数据可视化
我们日常工作中接触最多的是陈述型数据可视化,主要涉及常用图表,一般可在展示中直接使用。这些简单图表包括线状图、柱状图、饼状图和散点图等。这里的可视化需要做到“简洁”。一幅图表应该用有限几个变量,清晰传达一个信息。比如目标很明确,为听众确认并介绍背景信息。
此类图表常用于正式展示,对清晰度和逻辑性要求也很高。正式展示通常时间有限,如果图表设计不理想,介绍人就必须停下来解释,而图表中的信息本应一目了然。这并不是说陈述性图表不应引发讨论,但讨论应针对图表传达的理念,而非图表本身。接下来数猎哥按照构成分析、对比分析、分布分析、关系分析,4个方面,为大家介绍几种常见的数据可视化图表。
2、常见可视化图表之一:构成分析
1)、饼图/环形图
饼图经常表示一组数据的占比,需要数值维度。如图,各扇形面积代表各类型装修材料销售额的大小,整体为装修材料总销售额。右侧环形图为饼图的变种,中心区域可展示数据或者文本信息。
饼图也是有缺陷的,例如30%和35%在饼图上凭肉眼是难以分辨出区别的。当类别过多,也不适宜在饼图上表达。因此在使用饼图时我们需要顺时针降序排列,同时维度取值在10个以内。
2)、玫瑰图
玫瑰图是饼图的变种,用来对比不同类别的数值大小,在数值相差不大的时候使用。如图,广东省、江苏省、山东省的GDP数额差别不是太大,如果只是使用常规饼图,难以对比三者的大小,使用玫瑰图则很显然广东省数值>江苏省>山东省。
3)、旭日图
旭日图也是饼图的变种,表现整体在各个维度上的构成,以及维度与维度之间的从属关系。如图,可以清楚看到整体的销售额在三大类产品的分布,而每类产品的各品牌销售额区别也可以直接对比,同时也可以看到每类产品的品牌分布。
4)、仪表盘
模仿汽车仪表盘,采用绝对值与相对值结合的方式,展现某个指标的完成情况,在项目进度,计划完成度较常见。只适合展现数据的累计情况,不适用于数据的分布特征等,同时一般超过100%后不太好表现。
5)、矩形树图
当我们想表达过多类型的数据时,可以使用矩形树图,它展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,每个矩形代表一个聚合类,颜色的深浅和面积的大小代表这个聚合类的大小。如图,比如电子商务、产品销售等涉及大量商品品类的分析等。
局限是不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。且当以面积表示大小,当数值相近时人眼难以辨别,当然可通过填充数值弥补。
6)、瀑布图
采用绝对值与相对值结合的方式,展示各成分构成情况,更多的用于核心指标的分解,适合展示数据累积变化过程,局限是各类数据差别太大则难以比较。
如图核心指标为净利润,可以看到核心指标由收入和成本计算得出,而收入方面营业收入占据主要,支出方面营业成本占据主要。我们可以提升营业收入或降低营业成本来提升公司净利润。
3、常见可视化图表之二:对比分析
1)、柱状图/多指标柱状图
柱状图是一种应用得很广泛的图形,它表征分类型变量与数值型变量的关系,常用于多个维度的比较和变化。柱形图至少需要一个数值型维度,通常文本维度/时间维度通常作为X轴,数值型维度作为Y轴。
一般需要排序,如果分类型变量是有序的,按照它本身的顺序排列即可,如果分类型变量无序,那么则根据数值型变量的大小进行排序,使柱状图的高度单调变化。如左图,各类型装修材料的销售数量对比,右图为各类型装修材料的销售额及销售成本对比。
2)、条形图/多指标条形图
类似柱状图,只不过两根轴对调了一下。因为有大量空白位置标示每个类别的名称,所以适用于类别名称过长的情况,但分类过多则无法展示数据特点。
3)、象形图
以形象化的图片数量代表维度数值的大下,多用于具体实物的对比。如图,其中将办公用品、技术产品和家居产品用形象化图形来代表其维度,让观众者很容易了解到这组数据的维度表示。
4)、堆积柱图/堆积条图
用来比较同类别各变量和不同类别变量总和差异。需要注意的是堆积柱内各项间具有相同性质的维度划分,最好不要是不同的度量。如图,柱与柱之间表示各区域订单数量对比,华南订单数量可以看到是由三个产品订单数量组成。可同时对比三个类别产品在各区域订单数量。
5)、折线图
折线图是用来观察数据的趋势,主要展示数据随时间或有序类别的波动情况的趋势变化。对比时使用,常见时间维度对比。如果是无序类别则无法展示数据特点。
6)、面积图
用面积展示数值大小,展示数量随时间变化的趋势。多用于时间维度的对比,其中堆积面积图中堆积部分需要是具有相同性质的维度划分。
7)、雷达图
雷达图将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点,适用于了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。它在商务、财务领域应用较大,常见于经营状况,财务健康程度。比如对企业财务进行分析,划分出六大类:销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比,会很清晰。另外在游戏中也应用广泛,如图游戏人物的各项数值对比。
这里需要注意雷达图的数据必须进行标准化处理,同时指标是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。另外雷达图是静态数据,不可能有时间维度,同时能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。
8)、对比条图
两个项目在各个维度的对比时使用。如图展示了广东省、江苏省、山东省和浙江省在2015年与2016年的GDP对比,可以看到四省对比,广东省GDP较高,而2015年与2016年GDP对比,则2016年增长明显。
9)、子弹图
对比条形图的变种,多用于对比实际与目标之间的差距。如图表现的是各乐行装修材料的销售额完成度,且均存在深度灰色以内,表现不理想。
10)、双轴图
以左右两个Y轴的形式,展示同一维度下不同指标的情况。两个坐标轴的图表类型选择需要区分开。
11)、帕累托图
双轴图变种,用来分析原因,确定产生问题的主要原因。如图可以看到,特殊节日和行业旺季是此次数据异常的最重要原因,两项占比达到了56%,可加强此阶段的促销,帮助销量增长。
12)、漏斗图
漏斗图是流程转化分析,适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。转化是漏斗图主要表达的信息。例如在网站的用户行为分析中,如图,反映了报告浏览人数中,有5%的用户下载了此报告。在实际工作中,各种业务流程均可构建漏斗。
13)、词云
词云主要展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,常用于对比文本出现频次。如用户画像标签,搜索关键词频次、新闻关键词频次。如图为各类型装修材料的搜索次数,可以看到国产强化的搜索次数较高,可加大此类关键词的搜索营销。
4、常见可视化图表之三:分布
1)、散点图/气泡图/四象限图
散点图在报表中不常用到,但是数据分析中比较常见。散点图通过坐标轴来揭示数据间的关系,发掘变量与变量之间的关联,当存在大量数据点,结果更精准,比如回归分析。当数据量小的时候会比较混乱。气泡图是散点图的变种,它使用气泡代替散点图的数值点,面积大小代表数值大小。
如图使用销售额和利润来定位不同类别产品,位于右上角的产品为销售额高、利润也高的明星产品;左下角的销售额、利润都不高的产品,为滞销品。
2)、地图
一切和空间属性有关的分析都可以用到地理图。比如各地区销量,或者某商业区域店铺密集度等。一般用颜色深浅或气泡大小来展示区域范围的数值大小。比如人口密度、各地区销量,或者某商业区域店铺密集度等。
3)、箱线图
箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。假如你是一位互联网电商分析师,你想知道某商品每天的卖出情况:该商品被用户最多购买了几个,大部分用户购买了几个,用户最少购买了几个。箱线图就能很清晰的表示出上面的几个指标以及变化。
另外企业产品质量管理、人事测评、探索性数据分析等统计分析活动也经常会被应用到,如图,可以发现,华北地区出现超出范围的异常值,可通过结合业务场景分析异常原因。
4)、热力图
热力图可以用于对比两个维度的数值大小,用颜色深浅代表数值的大小。热力图在网页分析、业务数据分析等其他领域也有较为广泛的应用。如图展示了不同区域在不同时间的订单数量。
5、常见可视化图表之四:关系分析
1)、桑基图
桑基图是一种特定类型的流程图,图中延伸的分支宽度对应数据流量的大小,它常表示信息的变化和流动状态。常用于能源、材料成分、金融等数据的可视化分析,还有网站用户行为路径的分析。如图,可以看到用户在登录后的行为,以及下一步行为。
2)、关系树图
表现各个维度之间的关系,多用于组织架构分析,如图可以表现不同类型产品的组合方式。
3)、关系图
表现各个维度之间的关系,及各关系间的关系强弱。比如社交关系链、品牌传播、或者某种信息的流动。如图展示不同类型产品的销售额贡献情况,如办公产品的销售额由哪些产品贡献。
八、小结
数据可视化是借助图形化手段,更清晰有效地传达与沟通信息的一种方式,在传达信息这个目的之下,我们就要正确地进行选择,首先需要依据数据类型和目的选择正确的图表类型。
当我们做数据可视化时,可以先对现有的数据进行分析,得出自己的初步结论,明确要表达的信息和主题(即,你通过图表要说明什么问题)。然后根据这个目的在现有的或你知道的图表信息库中选择能够满足你目标的图表类型。最后开始动手制作图表,并对图表进行美化、检查,直至最后图表完成。