图像文字识别(OCR)用什么算法小结 - 走看看

zoukankan html css js c++ java

图像文字识别(OCR)用什么算法小结

说明：主要考虑深度学习的方法，传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection：找到有文字的区域（proposal)。

1.2classification：识别区域中的文字。

2.文字检测

文字检测主要有两条线，两步法和一步法。

2.1两步法：faster-rcnn.

2.2一步法：yolo。相比于两步法，一步法速度更快，但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测：四个自由度，类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测：文本框是不规则的四边形，八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路：检测文本框－>用radon hough变换等方法进行文本矫正－>通过投影直方图分割出单行的文本的图片－>最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的，各个字符之间看成是独立的：multi-digit number。

3.2不定长的：RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism（CNN+RNN+Attention）:分为hard attention（直接给出hard location，不能直接暴力pb）、soft attention（可以暴力pb）、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

查看全文

相关阅读:
P3383 【模板】线性筛素数
 POJ2431-Expedition【优先队列+贪心】
HDU1087
HDU1029
最小生成树之Kruskal算法
 AC自动机模板
 328闯关解析
 php可获取客户端信息
 $( ).focus()与$( )[0].focus()区别
 RegExp类型和text()方法

原文地址：https://www.cnblogs.com/ys99/p/9201229.html

Copyright © 2011-2022 走看看