1.tesseract-ocr是什么:
tesseract-ocr,简称tesseract,windows下载地址https://github.com/UB-Mannheim/tesseract/wiki
是google开发的一款基于ocr识别的开源工具
可以单独运行:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
也可以作为其他语言的类库被调用(即本文重点pytesseract)
tesseract由C++语言编写,目前最新的的内部实现增添了lstm神经网络
默认安装语言是英文,如果有额外的语言需求可从https://github.com/tesseract-ocr/tessdata下载指定语言包(例如chi_tra.traineddata)
然后把对应语言包放到tesseract安装目录例如D:/tesseract-OCR/的子文件夹tessdata中即可获得对应的语言支持(如本例为繁体中文)
2.pytesseract:
pytesseract是python的第三方脚本库,内部实现实际上是tesseract
安装方法为pip/conda install pytesseract
使用方法:import pytesseract
注意:首先确保tesseract在环境变量中:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
例如我的tesseract安装目录在D:/tesseract-OCR/
就要事先运行
tesseract_cmd = r'D:/tesseract-OCR/'
pytesseract主要方法如下:
1)image_to_string(Image):将图像识别为字符串
2)get_languages(Image):列出可用语言
3)image_to_boxes(Image):获得边界框的估计值
4)image_to_data(Image):获取详细数据,包括框,置信度,行号和页码
5)image_to_osd(Image):获取有关方向和脚本检测的信息
6)image_to_pdf_or_hocr(Image):将图片转换成pdf / hocr(通过指定extension)
更多详细用法可参阅https://pypi.org/project/pytesseract/
3.pytesseract源码分析
4.如何通过图像预处理优化pytesseract
https://tesseract-ocr.github.io/tessdoc/ImproveQuality
https://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy