废话不多说,直接介绍如何下载安装tesseract-OCR以及pytesseract和PIL资源 文末百度网盘都有
Tesseract是一个开源的OCR引擎,能识别100多种语言(中,英,韩,日,德,法…等等)pytesseract是python里的一个基于Tesseract的包。
1.首先下载并安装tesseract-ocr软件
2.安装python库:pip install pytesseract和pip install pillow
无论是windows系统还是Lunix系统,都可以到GitHub下载相关版本。
链接:https://github.com/tesseract-ocr/tesseract/
进入链接后,在下面找到安装介绍,点击蓝色划横线部分
第二步 点击蓝色划横线部分
第三步:到这里根据自己的Windows系统选择32位或者64位
或者直接在这里选你要的版本https://digi.bib.uni-mannheim.de/tesseract/
下载完成之后点击安装
安装过程中按照提示即可,过程中还有多种文字识别语言支持。想要识别中文的朋友记得勾选下载相应的语种。
之后打开cmd也就是命令行模式输入:pip install tesseract
(python3.0以上的朋友下载python解析器的时候自带pip,不用再下载pip了)
等待安装成功,我这里已经安装成功了
之后仍然在命令行模式输入:pip install pytesseract
等待片刻就成功安装pytesseract和PIL(pillow)两个库了。
如果不能正常使用那么可能需要改写路径。把你安装tesseract的路径添加到你电脑的环境变量path中。
遇到的问题:
1.FileNotFoundError: [WinError 2] 系统找不到指定的文件
解决方法:
方法1[推荐]: 将tesseract.exe添加到环境变量PATH中
注意: 为了使环境变量生效,需要关闭cmd窗口或是关闭pycharm等ide重新启动
方法2: 修改pytesseract.py文件,指定tesseract.exe安装路径
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe‘
方法3: 在实际运行代码中指定
pytesseract.pytesseract.tesseract_cmd = 'D:\Program Files\Tesseract-OCR\tesseract.exe'
链接
https://blog.csdn.net/ocean35/article/details/82942382
https://www.cnblogs.com/hupeng1234/p/7136442.html
使用