文字识别,涵盖了直排文字、弯曲文字,也有基于偏旁部首的方法。
RARE
白翔
Robust Scene Text Recognition with Automatic Rectification
https://github.com/guojm14/TPS-SRN-tensorflow
irregular text、including perspective text and curved text、end-to-end
先对不规则的文本进行校正,然后识别。
一下内容来自 https://blog.csdn.net/rabbithui/article/details/78853649
文章提出RARE模型实现对不规则文本的end-to-end文字识别,RARE由STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)组成。STN用于对输入的不规则文本进行矫正,得到形状规则的文本作为SRN的输入,SRN是一个基于注意力机制的网络结构,实现sequence to sequence的文本识别。
文章中的训练数据为8百万的合成样本数据,输入图像均resize到100×32,STN的输出size也是100×32。
AON
AON: Towards Arbitrarily-Oriented Text Recognition
https://github.com/huizhang0110/AON
irregular texts、attention-based、end-to-end
也是使用STN对不规则文本进行校正
参考 https://blog.csdn.net/xuningli84019582/article/details/90441306
整个模型分为三个部分,
(1)BCNN基本CNN层用来对input image提取出feature map,
(2)AON+FG是本算法的核心,基本思路是将文本方向分为Left2Right,Right2Left,Bottom2Top,Top2Bottom,对这四个方向提取四个sequence vector和一个权重向量,在FG层将四个sequence和权重进行组合形成最终的sequence,
(3)然后输入带有Attention机制的Decoder从而输出最终文本。
ASTER
白翔
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
https://github.com/ayumiymk/aster.pytorch
端到端的识别系统。
也是使用STN对不规则文本进行校正
https://blog.csdn.net/alibabazhouyu/article/details/82778357
参考 https://www.cnblogs.com/lillylin/p/9315180.html
针对不规则文字,先矫正成正常线性排列的文字,再识别;
整合矫正网络和识别网络成为一个端到端网络来训练;
矫正网络使用STN,识别网络用经典的sequence to sequence + attention