Qitong Wang, Yi Zheng, and Margrit Betke
Boston University
Boston, MA 02215
{wqt1996, yizheng, betke}@bu.edu
一种改进文字识别的方法:自然场景中任意形状的文字检测
摘要
如果文本在图像中被缩短,或者字母被艺术地扭曲,那么理解自然场景图像中的文本含义,如公路标志或商店门面标志,尤其具有挑战性。
我们介绍了一个基于流水线的文本识别框架,它可以检测和识别具有复杂背景的自然场景图像中各种字体、形状和方向的文本。
我们工作的主要贡献是文本检测组件,我们称之为UHT,即UNet、Heatmap和Textfill的缩写。
UHT使用UNet计算候选文本区域的热图,并使用textfill算法在候选文本中的每个单词周围产生紧密的多边形边界。
该方法利用从groundtruth注释提供的文本边界多边形中获取的groundtruth热图,训练UNet。
我们的文本识别框架,称为UHTA,结合了UHT与最先进的文本识别系统ASTER。
在4个具有挑战性的公共场景文本检测数据集(Total-Text、SCUT-CTW1500、MSRA-TD500和COCO-Text)上的实验表明,UHT不仅能够检测多语言(可能旋转)的直文本,而且能够检测多语言(可能旋转)的弯曲文本。
我们在TotalText数据集上的UHTA实验结果表明,UHTA在F-measure中比四个最先进的文本识别框架至少高出9.1%,这表明UHTA可以在实际应用中作为一个完整的文本检测和识别系统。
本文贡献
我们的研究工作有五方面的贡献:
•我们提出了一种新的文本检测框架,称为UHT,它只输出一个文本区域热图通道。UHT可以解决场景文本检测领域中具有挑战性的问题,如准确检测和分离“粘”在一起的多个文本区域。
•我们提出了一种新的文本区域特征地图表示方法,这是一种特殊的热图(图1),它使UHT能够检测自然场景图像中的文本。
•我们提出了一种新的算法,称为Textfill算法,可以准确地提取场景文本区域中紧密定义每个单词轮廓的多顶点边界多边形。
•在特定基准数据集上进行微调时,UHT获得了比大多数最先进的场景文本检测方法更高的评价分数。其中一个实验表明,UHT在泛化能力上优于所有最先进的方法。
•“点亮”文本图像意味着检测和识别它。我们介绍了一个完整的基于流水线的文本点识别系统UHTA,表明只要给出一个有效的文本识别模型,我们的UHTA就可以用于文本点识别。