zoukankan      html  css  js  c++  java
  • [转]OCR----你不得不知的Tesseract六大重要核心

    转载地址:http://blog.csdn.net/guzhenping/article/details/51035077

    Abstract


    整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!

    这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了Tesseract发展历史,我就略过了,只谈技术相关。

    1. Architecture


    先谈Page Layout Analysis技术,它在OCR领域是个很重要的部分,因为算是文字识别的准备工作。但是,早期的Tesseract没有这项技术,因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。

    没记错,就是Tesseract 3.x系列,但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测,我猜快做完了吧….

    这篇论文里的(旧)Tesseract假设:其数据源是已定义的可选多边形文本域的二进制图片。

    Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.

    再谈处理过程。分两步: (1)connected component analysis,然后得到Blobs. (2)从Blobs中得到文本行,然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。

    最后谈识别过程。分两步: (1)通过一个一个地识别单词训练自适应分类器(adaptive classifier),classifer将得到更高的几率能正确识别单词。 (2)识别整个页面。

    2. Line and Word Finding


    概括来说,先找文本行(lines),再找基线(baseline),然后将单词(word)切割成字符(character)。

    细细来讲三点:

    • 找文本行所用的算法参见:《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
    • baseline使用的二次样条曲线(quadratic spline),参考资料:《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
    • 通过固定间距检测(fixed pitch detection),把单词切成字符。对于没有固定间隔的文本,即成比例单词(proportional word),采用计算baseline和mean line之间的空隙垂直范围。

    致歉


    这篇博文在我的草稿箱放了太久,不公布出来就是浪费。但是,目前的内容非常对不起文章标题。按照题目,我还会写:

    • 3 Word Recognition
    • 4 Static Character Classifier
    • 5 Linguistic Analysis
    • 6 Adaptive Classifier

    如果这篇博文反响还不错,我将继续下去。Sorry~Everyone~

    结语


    我还健康的活着,有问题欢迎交流!这里在大牛面前,班门弄斧,实在不好意思哈~欢迎指正!

    有问题可以在我的微信公众号“谷震平的专栏”提出,当天答复。欢迎,扫描下方二维码,回复“Tesseract”,即可得到《An Overview of the Tesseract OCR Engine》(我个人进行了注释、翻译)的阅读链接。

    谷震平的专栏

                          

                         
                    
     
  • 相关阅读:
    SqlServer 查看数据库中所有存储过程
    SqlServer 查看数据库中所有视图
    SqlServer 查询表的详细信息
    SqlServer 遍历修改字段长度
    net core 操作Redis
    Tuning SharePoint Workflow Engine
    Open With Explorer
    Download language packs for SharePoint 2013
    Change Maximum Size For SharePoint List Template when Saving
    Six ways to store settings in SharePoint
  • 原文地址:https://www.cnblogs.com/Crysaty/p/6094247.html
Copyright © 2011-2022 走看看