Python2.7利用Tesseract进行中英文图像识别

zoukankan html css js c++ java

Python2.7利用Tesseract进行中英文图像识别
背景环境: win8.1 64位 python2.7.13
本以为会很简单，结果在配置环境这块上花了很多时间，踩了几个坑，最后自己看英文文档和log才解决问题。
打开网站
https://pypi.python.org/pypi/pytesseract
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
http://www.pythonware.com/products/pil/
找到并下载安装tesseract-ocr-setup-4.00.00dev.exe文件下载中文训练库chi_sim.traineddata
将安装文件路径添加到环境变量中的PATH 和 Path中去，在系统变量中添加一个TESSDATA_PREFIX，变量值还是文件路径
我的是D:programfiles esseractTesseract-OCR
打开cmd安装 pip install pytesseract

去C:Python27Libsite-packages 下找到PIL卸载然后去下载 PIL-1.1.7.win32-py2.7.exe 并安装
# -*- coding: utf-8 -*- try: import Image except ImportError: from PIL import Image import pytesseract img = Image.open('test2.png') img.load() text = pytesseract.image_to_string(img, lang='chi_sim') print(text)
最后找张png的图放在和这个文件同目录下完事了

几个坑:
:from . import VERSION, PILLOW_VERSION, _plugins ueError: Attempted relative
不知道什么鬼，后来直接把C:Python27Libsite-packagesPIL 给删了重新安装这个库
pytesseract.pytesseract.TesseractError: (1, u'Error opening data file D:\programfiles\tesseract\Tesseract-OCR/chi_sim.traineddata')
这里需要将chi_sim.traineddata放在指定目录下，而不是 $path essdata essconfigs下
总结: 看官方教程百度上搜索的太旧了 stackoverflow 也是
查看全文

相关阅读:
在小程序开发的新风口看华为云如何助立创科技抢占市场红利
 华为云软件开发云助力集时通软件敏捷开发
 一站式云端安卓软件开发工具的体验之路！
一名优秀的全栈工程师必需的开发工具
 学哪种编程语言更有“钱”赚？
深度剖析：最新云端开发工具如何实现敏捷+DevOps开发落地
 软件开发未来发展五大趋势，从业者们注意了！
十个最有“钱景”的IT技能，你掌握了哪个？
“敏捷开发”之白话篇
 解决软件开发中的多个痛点——华为软件开发云

原文地址：https://www.cnblogs.com/zeroones/p/8329537.html