py库： Tesseract-OCR（图像文字识别）

zoukankan html css js c++ java

py库： Tesseract-OCR（图像文字识别）
http://blog.csdn.net/u012566751/article/details/54094692　　Tesseract-OCR入门使用1

http://blog.csdn.net/u012566751/article/details/54136836　　Tesseract-OCR入门使用2

http://blog.csdn.net/u012566751/article/details/54141109　　Tesseract-OCR入门使用3

https://github.com/tesseract-ocr/tesseract/wiki/APIExample　　Tesseract API Example

当前环境：win7，python3.6.0，pyCharm4.5。　　python目录是：c:/python3/

安装：

一、安装 tesseract 库

cd c:/python3/Scripts/

pip install tesseract

二、装程序：

https://github.com/UB-Mannheim/tesseract/wiki

这是非官方下载包，下载并安装4.0：　　https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

安装时注意勾选简体中文，默认安装，安装完毕后，敲命令（看看装的怎么样了，支持什么语言）：

cd C:Program Files (x86)Tesseract-OCR

tesseract

tesseract -v

tesseract --list-langs　　#查看Tesseract-OCR支持语言

三、改文件：

C:Python3Libsite-packagespytesseractpytesseract.py，找到这两行：
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract'
改为这样：
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY #tesseract_cmd = 'tesseract' tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
四、pyCharm里运行，就可以进行文字识别了：

（先用画图，用微软雅黑字体，写几个数字、和诗词，保存成：ci.png）
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('ci.png'), lang='chi_sim') print(text)
...
查看全文

相关阅读:
IT项目中使用 json格式数据保存项目配置信息, 在配置文件再读取json文件的内容进行赋值
 python 使用eval() 可以将json格式的数据,转换为原始数据
 python 取出字典的键或者值/如何删除一个字典的键值对/如何遍历字典
 python2 中 unicode 和 str 之间的转换及与python3 str 的区别
 python 将列表嵌套字典的unicode字符串转换为str格式的字符串的方法
 Django 项目拆分配置文件settings.py
苹果笔记本调整 pycharm 字体大小的地方
 django rest framework 向数据库中插入数据时处理外键的方法
 java实现文件的压缩和解压
 java 跨数据库导入大数据

原文地址：https://www.cnblogs.com/qq21270/p/7704952.html