tesseract识别图片文字

OCR识别图片文字

pytesseract免费开源项目完成识别

pip install pytesseract 安装扩展包，只安装这个没有用
tesseract-ocr.exe 完成识别工作，下载并安装(过程中，需要点击选择中文包），记录其所在路径(应该与以下示例中近似)
1. 下载tesseract-ocr，链接：https://pan.baidu.com/s/1IBLgMicVK3Dk8VUO44sB3g 提取码：ghnb

示例代码：

from PIL import Image
import pytesseract

# 配置tesseract.exe路径，否则会报错
pytesseract.pytesseract.tesseract_cmd = r"C:Program FilesTesseract-OCR	esseract.exe"

img = Image.open(r'03.jpg')
ret = pytesseract.image_to_string(img, lang='chi_sim')  # lang='chi_sim' 对识别中文起作用
print(ret)

报错示例：

1. pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\Program Files\Tesseract-OCR\/tessdata/chi_sim
	修正方法：根据报错提示，缺少中文数据包。将中文数据包chi_sim.traineddata（百度云中已有），添加进C:Program FilesTesseract-OCR	essdata中即可。

查看全文

相关阅读:
【转】微信小程序原理
 【转】onAttachedToWindow()在整个Activity生命周期的位置及使用
 中序遍历非递归遍历算法
 多项式加法运算
 中缀表达式转换为后缀表达式
 多项式计算
 最大子列和问题
 广度优先搜索
 广搜和深搜的区别
 cookie 与 session 的区别详解

原文地址：https://www.cnblogs.com/hui-code/p/14224375.html