英文字母与阿拉伯数字:连通性好,切割准确
汉字:对于左右结构的字切割效果不好,也是因此现在OCR没有到100%识别率的原因之一。
当然可以考虑汉字是等宽度的,对于纯中文文本有效。但是当中英文混合的时候效果也不行
传统的方法是先识别,然后进行后处理。
传统的文本识别过程:考虑倾斜及噪声
1.行检测(水平切割)
2.字符检测(行内的竖直切割)
3.字符识别
4,.后处理(如左右结构错误)