论文摘要
可视化设计人员经常使用颜色来编码数值型和类别型的数据。然而,之前的可视化经常违反感知色彩设计原则,而且可能是位图图像。在这项工作中,我们提供了一种从位图可视化图像中半自动提取颜色编码的方法。给定图像和图例位置,我们将图例分类为描述离散或连续颜色编码,识别所使用的颜色,并使用OCR方法提取图例文本。然后我们结合这些信息来重新做颜色映射。用户还可以使用注释界面来纠正解释错误。我们使用从科学论文中提取的图像语料库评估我们的技术,并证明各种图表类型的颜色映射的准确率。此外,我们介绍了我们的方法的两个应用:自动重新着色以提高知觉效果,交互式操作以改善静态可视化的可读性 。
个人理解
论文的主要工作是用机器学习的方法提取出位图可视化图像中的颜色编码和对应的文本信息,然后来改变颜色的映射以及添加相应的交互。
完成这项工作分为五个步骤:识别color legend的位置,判断color legend的类别,颜色的提取,文字的提取,重构颜色映射。
-
识别位置:分两种情况,一种是color legend在主视图内,一种是在主视图外。
a. 主视图外:第二大的连通域如果是一个矩形就把他作为color legend返回
b. 主视图内:需要人工圈出 -
判断类别 (a是离散的color legends,b是连续的color legends )
将图片分为三种类别:离散,连续,其他。使用CNN训练并分类。 -
颜色的提取
a. 离散的:二值化图片,然后将灰度图放在原图上,最后使用DBSCAN算法来消除噪声点
b. 连续的:二值化图片,然后使用洪泛填充和连通域算法,最大的区域就是提取的颜色
-
文字的提取:使用Poco&Heer的 text localization 方法,分为三个部分:文字定位,文字识别,文字拼接。
-
重构颜色映射
a. 离散的:对于提取出的文字和颜色, 距离最近的映射在一起 b. 连续的:区分是水平还是竖直,然后提取出文本的范围,然后使用线性插值得到实际的范围,中间的值用插值获得