zoukankan      html  css  js  c++  java
  • Imaging Techniques in Document Analysis Processes(文档分析过程中的图像技术)

    4. Imaging Techniques in Document Analysis Processes(文档分析过程中的图像技术)

    Contents
    Introduction. ....................................................................................... 74
    Basic Image Processing Algorithms. ............................................................. 74
      Morphological Operations. ................................................................... 75
      Skeletonization. ............................................................................... 75
      Connected Component Labeling.............................................................. 76
      Run-Length Smoothing Algorithm (RLSA). ................................................ 76
      Distance Transform. ........................................................................... 76
      Hough Transform ............................................................................. 77
      Projection Profiles. ............................................................................ 77
    Document Image Binarization. ................................................................... 77
      Global Thresholding Techniques. ............................................................ 79
      Local Thresholding Techniques. ............................................................. 86
      Hybrid Thresholding Techniques. ............................................................ 90
      Combining Different Binarization Techniques. .............................................. 91
      Using Training Samples....................................................................... 92
      Binarization of Color Documents. ............................................................ 94
    Document Image Enhancement. .................................................................. 95
      Low Contrast and Uneven Background Illumination........................................ 95
      Bleed-Through, Shining, or Shadow-Through Effects. .......... ........... ............ .... 97
      Damaged Characters or Noisy Background. ................................................. 101
      Borders or Parts of Adjacent Page. ........................................................... 102
    Document Image Normalization.................................................................. 104
      Page Orientation............................................................................... 104
      Deskew and Deslant. .......................................................................... 112
      Dewarping. .................................................................................... 123
    Conclusion. ........................................................................................ 127
    Cross-References. ................................................................................. 127
    References. ........................................................................................ 128
      Further Reading. .............................................................................. 131 

    摘要

    为了处理、增强、分析和识别文档图像,图像处理技术在文档图像分析中得到了广泛的应用。在本章中,我们概述了文档图像分析中使用的基本图像处理算法,并重点介绍了用于文档图像二值化、增强和规范化的技术。

    简介

    在文档图像分析过程的不同阶段使用了几种图像处理算法。这些操作包括形态学操作、骨架化、连接组件标记、行程平滑、距离计算、Hough变换和投影轮廓。在本章中,我们将概述这些算法,并分析用于文档图像二值化、增强和规范化的成像技术。

    文档图像二值化用于将文本与背景区域分开。这是一项重要的、关键的任务,同时,由于可能出现图像退化、背景强度不均匀、低对比度、阴影、拖影等,也是一项艰巨的任务。文档图像增强旨在通过减少低对比度和不均匀背景光照等伪影来提高文档图像的质量,渗透和阴影效果,损坏的角色,和嘈杂的黑色边框。文档图像规范化是指在纠正可能的页面倾斜、字符倾斜、扭曲和透视扭曲后恢复文档图像水平对齐的任务。

    本章的结构如下。“基本图像处理算法”一节介绍了文档分析过程中使用的基本图像处理算法。“文档图像二值化”一节概述了文档图像二值化方法,而“文档图像增强”一节介绍了文档图像增强的最新技术。在“文档图像规范化”一节中,介绍了文档图像规范化方法。最后,对本章的关键问题进行了总结。

    基本图像处理算法

    数字图像处理是数字信号处理的一个子类,是指利用计算机算法对数字图像进行处理。图像处理算法的发展始于20世纪60年代,至今已在医学图像处理、遥感、机器人视觉、图像传输和编码等领域得到了广泛的应用。有关可用图像处理算法的详细说明,请参阅一些调查论文和书籍[55]。在本节中,将介绍文档分析过程中使用的基本图像处理算法。这些操作包括形态学操作、骨架化、连接组件标记、行程平滑、距离计算、Hough变换和投影轮廓。

    形态学操作

    数学形态学是20世纪60年代引入图像分析来描述材料结构的理论,是一种非常流行的基于集合论的非线性图像处理理论。最初是为二值图像开发的,后来推广到灰度图像。二值形态学的基本思想是用一个简单的、预先定义的形状来探测一个图像,得出这个形状如何与图像中的形状匹配或丢失的结论。数学形态学中最基本的两个运算是腐蚀和膨胀。这些操作通过将结构元素转换为输入图像中的不同点并检查转换的内核坐标与输入图像坐标之间的交点来工作。形态学算子被广泛应用于各种机器视觉和识别任务中。在文档图像分析中,形态学操作已被证明可用于图像清理和噪声去除、布局分析、倾斜校正、文本线查找和特征提取等任务。

    骨架提取

    骨架化或细化是指图像的核心线检测。骨骼化的目的是将图像中的成分还原为它们的基本信息,以便于进一步的分析和识别。在文档图像分析中,骨架化通常用于预处理、分割和特征提取阶段。

    文献中提出了几种图像骨架化方法,可分为以下三大类。一类基于距离变换的骨骼化方法。这些方法检测对应于给定图像中包含的最大圆盘的中心的所有点。第二类方法以非迭代的方式产生数字对象的中线或中心线。通常,首先计算一些关键图像点,然后通过连接这些点来定义特定的路径。第三类骨架化方法的特点是迭代细化。在每次迭代中,基于多个像素连接规则检查每个像素是否被移除。骨架可以用数学形态学的基本运算来计算,这使得骨架成为一种形态的表示

    连接组件标签

    连接组件标签用于为每个图像区域分配一个唯一的标签,从而能够区分不同的对象。在二值图像中,为每个图像像素指定一个标签,以便连接的像素具有相同的标签。为二维图像定义连接像素有两种常用方法:4连接像素(仅水平或垂直连接)和8连接像素(水平、垂直或对角连接)。连通分量标注是许多图像处理应用中的一个重要步骤。在文档图像处理中,它主要用于预处理和分割阶段。

    连接组件标记算法分为三大类:多通道算法、两通道算法和一通道算法。

    行程平滑算法(RLSA)

    在二值图像中,白色条纹对应于连续的水平或垂直背景像素。RLSA是最流行的文档成像技术之一,它是基于检查在水平和垂直方向上存在的白运行。对于每个方向,长度小于阈值平滑值的白色运行被消除[73]。RLSA通常用于图像增强和分割以及目标识别。在文档图像分析过程中,RLSA主要用于预处理、分割和布局分析。

    距离变换

    根据距离变换,每一个像素都以其所在区域边界的最短距离进行标记。距离变换可以通过仅保持最大局部距离测度的点来获得稀疏图像。这种细化后的图像与距离值相结合,可以作为原始图像的简洁描述,从中可以重建原始图像。距离变换用于文档图像的预处理、分割和特征提取等多种处理任务。

    计算距离变换有两种常用方法。第一种是迭代方法,根据这种方法,在每个迭代边界上从区域中剥离并设置为与原始边界的距离。根据第二种方法,需要通过图像的固定次数。通常,沿着不同路径方向的两个通道就足够了。

    霍夫变换

    Hough变换是近年来出现的一种用于图像处理和模式识别的有效方法。它涉及从图像坐标平面到参数空间的转换,当目标是找到适合图像平面上单个点组的直线或曲线时,它非常有用。Hough变换的目的是通过一个投票过程来发现某类形状中物体的不完美实例。该投票过程在参数空间中进行,从该对象空间中,在由计算Hough变换的算法明确构造的所谓累加器空间中获得对象候选作为局部极大值。在文档图像分析中,它主要用于文档倾斜估计、文本行检测和特征提取。

    它在大图像中实现的一个主要缺点是速度相对较低。对于Hough变换的加速,只能选择几个特征图像点或连通的分量中心来计算Hough空间。

    投影轮廓

    投影轮廓是基于不同方向的图像轮廓(投影图像)的。通过计算水平投影和垂直投影的局部极小值,我们可以定义多个图像分割段。投影轮廓也用于文档倾斜检测和特征提取。

    文档图像二值化

    图像二值化是指将灰度或彩色图像转换为二值图像。在文档图像处理中,为了将所有像素分类为文本或非文本,采用阈值选择技术将文本从背景区域中分离出来。这是文档图像分析与识别流程中的一个重要而关键的阶段,因为它允许更少的图像存储空间,增强了文本区域的可读性,并允许高效、快速的进一步处理用于页面分割与识别。在文献中,一些其他术语也用于文档图像的二值化,例如阈值化、文本/背景分离或分割以及背景消除。二值化是近年来文献图像处理领域的一个研究热点。由于图像退化、背景强度不均匀、低对比度、阴影和涂抹等问题,这是一项具有挑战性的任务。

    一般来说,文档图像二值化方法可以是全局的,也可以是局部的。在全局方法中,阈值选择导致整个图像的单个阈值T。如果I.x;y/是原始灰度图像,则生成的二进制图像B.x;y/定义如下:

        (4.1)

    图4.1中示出了表示图像中像素在灰度上的分布的文档图像的灰度直方图H.g/(0值对应于黑色,255对应于白色)。可以观察到,在本例中,直方图具有双峰分布:左侧山丘对应于文本区域,而右侧山丘对应于背景。在全局阈值技术[16,54,61]中,任务是计算最佳阈值T以分离这两个山。阈值T的选取直接影响二值图像的质量。如图4.2所示,较小的T值可能导致断字符或模糊字符,而较大的T值可能导致生成的二值图像中的噪声字符或合并字符。

    当前景和背景区域之间有良好的分离时(如图4.1b中所示),全局阈值具有良好的性能。如果这两个区域之间存在重叠,则全局阈值技术将失败。图4.3给出了这种灰度图像的示例。在这个例子中,如果我们应用一个小的全局阈值T D 130(参见图4.4a),尽管背景几乎被完全移除,一些文本区域也被移除。较大的阈值(T D 170)导致二值结果,而不丢失任何文本信息,但具有产生噪声图像的背景区域(参见图4.4c)。如图4.4b所示,上述值之间的阈值(T D 150)导致丢失文本信息和添加背景噪声。为了解决这些问题,引入了局部(自适应)阈值技术[27、32、50、56、77]。根据这些技术,局部区域信息指导图像的每个像素的阈值。这些技术在文档图像分析中得到了广泛的应用,因为它们在从图像中提取字符笔划时具有更好的性能,因为图像中含有由于退化而导致的空间不均匀灰度。

    还提出了一些混合的文档图像二值化方法[35、68、72],它们使用全局和局部信息来确定像素是否属于文本或背景类别。最近,有人提议[6,28,64]结合并考虑一组二值化技术的结果,以便在每种技术的成功中使用互补性。最后,一类特殊的文档图像二值化技术基于使用训练集和机器学习框架[14、18、30],而特殊技术用于彩色文档的二值化[7、67、74],并且基于处理颜色信息。在本节中,将介绍上述文档图像二值化类别的最具代表性的工作。表4.1概述了关键的文档图像二值化技术。二值化技术的全面概述可以在一些调查论文中找到[57,66]。

    全局阈值技术

    Otsu[54]提出了一种基于直方图分析的高效、常用的全局阈值技术。当使用全局阈值t时,阈值操作被视为将图像的像素划分为两类C0和C1,其中C0是前景(文本)和C1是背景。为了测量阈值T有多好,使用判别准则最大化,其中定义为可分离性度量。

     式中,2b和T2分别是类间方差和总方差,以及

         (4.3)

        (4.4)

     pi是灰度i出现的概率,定义为

         (4.5)

    其中H.i/是灰度直方图,N是像素总数。!0!1、0和1的定义如下:

     最优全局阈值topt定义为

      (4.7)

     式中n由式(4.2)定义。

    Otsu算法只能成功地应用于具有双峰分布直方图的文档图像。为了处理背景不均匀的文档图像,Cheriet等人提出了一种改进的Otsu方法。[16] 这是基于上述过程的递归应用。在每次递归时,它首先从给定图像中分割出强度最低的对象。递归过程将继续,直到图像中只剩下一个对象(最暗的对象)。建议在以下情况下停止递归:

         (4.8)

    式中为式(4.2)定义的可分性度量。这种方法的有效性已经被证明是真实银行支票的二值化。

    根据迭代阈值法(见调查论文[57]),通过迭代过程自动选择最佳阈值。连续的迭代提供了越来越清晰的文本区域提取。在迭代n中,使用前景和背景类的平均值mf.Tn/和mb.Tn/计算新的阈值Tn:

         (4.9)

     当jTn TnC1j变得足够小时,迭代终止。

    几种二值化方法利用灰度级分布的熵,并利用阈值图像的熵的最大化来表示最大信息传递(参见勘测文件〔57〕)。通过知道灰度直方图的先验熵HT,通过最大化后验熵的上界来估计最优阈值。先验熵HT计算如下:

      (4.10)

    式中,pi为灰度I出现的概率(见公式(4.5))。

    表4.1:关键文档图像二值化技术概述

    。。。。。还有很多

    假设两个概率分布,一个是目标区域,一个是背景。这两类像素的先验熵定义为

    (4.11)

    式中,Pt是累积概率函数,计算如下:

    (4.12)

    当两类熵Hb和HW的和达到最大值时,图像被认为是最优阈值。

    Solihin等人提出了一类全局阈值化方法,用于灰度手写图像的二值化。[61]。它基于两级阈值方法,要求在第一级将手写图像的每个像素分配到三个类中的一个:前景、背景和它们之间的模糊区域,其中很难确定像素是否属于背景的前景。用于定义这三类的参数A和C(见图4.5)是基于积分比函数计算的。在第二阶段,根据所使用的手写媒体经验计算出最佳阈值T:

    (4.13)

    局部阈值技术

    Niblack[50]引入了一种局部二值化算法,该算法通过在图像上移动矩形窗口来计算像素级阈值。使用窗口中灰度值的平均值m和方差s计算窗口中心像素的阈值T:

    (4.14)

    其中k是设置为0:2的常数。k值用于确定将打印对象总边界的多少作为给定对象的一部分。该方法能在目标附近区域有效地区分目标和背景。只要窗口至少包含一个和两个字符,则结果对窗口大小不是很敏感。然而,背景中的噪声在最终的二值图像中仍然占主导地位。因此,如果对象在图像中是稀疏的,就会留下大量的背景噪声。

    Sauvola和Pietikainen[56]提出了一种通过在文本和背景像素的灰度值(文本像素的灰度值接近0,背景像素的灰度值接近255)上添加一个假设来解决这个问题的方法,从而得到了以下阈值公式:

    (4.15)

    其中R是固定为128的标准差的动态,k取正值(通常设置为0.5)。虽然这种方法对于文档图像有更好的效果,并且噪声被显著地消除,但是文本区域也可能丢失。应用局部阈值方法[50,56]和全局阈值方法[54]的示例结果如图4.6所示。

    逻辑级阈值技术不仅利用图像灰度值,而且利用字符的笔划宽度SW来提高二值化质量。根据Kamel和Zhao的算法[32],根据SW和用户预先确定的全局阈值进行计算。特别是,将每个处理点的灰度或平滑灰度与位于.2SW C 1/.2SW C 1/windows中以两对直径点为中心的四个局部平均值进行比较。具体表现如下:

    (4.16)

     式中,P 0 i D P.iC4/mod 8,L.P/D ave.P/g.x;y/>T,和

    (4.17)

    其中P x和P y是点P和g.x的坐标;y/是灰度或其平滑值。[32]的原始逻辑级技术依赖于用户,因为SW和全局阈值都是由用户预先确定的。此外,对于光照不均匀、噪声大以及其他退化的文档图像,全局阈值很难甚至不可能调整。Yang和Yan[77]提出了自适应逻辑电平技术(ALLT),其中SW是自动检测的,阈值是局部自适应的。对于ALLT中的SW检测,输入图像被划分为N.N D 4;::8个区域,目的是寻找具有准双峰直方图的局部区域。具体地,如果N是偶数,则在两个对角线方向的区域内执行直方图分析;如果N是奇数,则在垂直和水平方向上另外执行直方图分析。准模态区域用于游程直方图分析,SW定义为频率最高的游程。ALLT中提出的另一个改进涉及局部自适应阈值。对于每个处理点P,计算最小(min)、最大值(max)和平均值(AWE)灰度值。在2SW C 1/2SW C 1 /以P为中心的窗口内计算。值得一提的是,如果jmaxavej D jmin avej,则窗口将扩展到.2SW C 3/.2SW c3/,并再次执行计算。自适应阈值T产生如下:

    (4.18)

    其中˛是介于0.3和0.8之间的全局预定参数,而在大多数情况下建议为2/3。

    Gatos等人提出了一种局部阈值方法。[27]用于二值化和增强由于阴影、非均匀照明、低对比度、大信号相关噪声、拖影和应变而发生退化的文档。它遵循几个不同的步骤:(a)使用低通维纳滤波器的预处理过程,(b)使用带有小k参数(如0.1)的Sauvola方法[56]对前景区域进行粗略估计,以获得包含前景像素和一些噪声的二值图像,(c) 通过插值相邻背景强度进行背景面计算(见图4.7),(d) 一种阈值化方法,将计算出的背景表面与原始图像结合起来,使用一个阈值d,该阈值d根据背景表面B的灰度值而变化,以便即使在非常暗的背景区域中也能保留文本信息,最后,(e)基于收缩和膨胀过滤以提高文本区域的质量并保持笔划的连接性

  • 相关阅读:
    codeforces-1328F-Make k Equal
    codeforces-1327C-Game with Chips
    codeforces-1328E-Tree Queries
    深度学习(九):变分自编码器
    深度学习(八):概率生成模型
    深度学习(六):吉布斯采样
    深度学习(五):M-H采样
    深度学习(四):马尔科夫链蒙特卡洛采样(MCMC)
    深度学习(二):图模型的学习
    深度学习(一):概率图模型引入
  • 原文地址:https://www.cnblogs.com/2008nmj/p/12216453.html
Copyright © 2011-2022 走看看