zoukankan      html  css  js  c++  java
  • python 使用tesseract进行图片识别

    1 from PIL import Image
    2 import pytesseract
    3 
    4 text = pytesseract.image_to_string(Image.open(r'E:guo2432.jpg'),lang='chi_sim')
    5 print(text)

    我的python为3.7

    1.需要安装二个模块,

    PIL 直接使用 pip install PIL 会报错 使用 pip install Pillow 即可安装PIL

    第二个直接 pip install pytesseract

    2安装好了模块还需要下载 tesseract-ocr

    下载网址:https://github.com/UB-Mannheim/tesseract/wiki

    选择自己的版本下载,下载之后直接安装即可。注意要记住安装的位置,等下需要用到

    修改pytesseract.py 文件里面的指向路径

    打开方式可以在pycharm 输入import pytesseract.pytesseract 然后按住ctrl键鼠标对着pytesseract右键点击进去

    1 from io import BytesIO
    2 pandas_installed = find_loader('pandas') is not None
    3 if pandas_installed:
    4     import pandas as pd
    5 
    6 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
    7 tesseract_cmd = r'C:Program FilesTesseract-OCR	esseract.exe'
    8 RGB_MODE = 'RGB'

    其中tesseract_cmd是我已经修改了的地址,tesseract.exe在刚刚安装位置里面,将这里设置好了运行就不会报错

    pytesseract有很多语言库,默认的有英文,如果需要中文要去下载对应的语言包:
    网址:https://github.com/tesseract-ocr/tessdata
    其中的chi_sim.traineddata为简体中文的语言包,将语言包放置到安装路径的tessdata目录下即可。
    如果需要使用语言包使用lang=来指定对应的语言包。默认是英文的。

    chi_sim.traineddata的识别率不高,如果需要针对性的文字可以使用训练模型生成适合自己的语言包
  • 相关阅读:
    http://blog.csdn.net/sinat_33950284/article/details/50646622
    http://edu.csdn.net/course/detail/2798?ref=blog&loc=0
    微服务架构的分布式事务解决方案
    http://www.cnblogs.com/chenpi/p/5999707.html
    http://blog.csdn.net/hejingyuan6/article/details/47403299
    https://www.oschina.net/p/goshop2
    https://github.com/SuperMan42/MVP
    spring mvc
    http://www.iyaxi.com/2015-11-17/732.html
    场景测试
  • 原文地址:https://www.cnblogs.com/dayouzi/p/11295212.html
Copyright © 2011-2022 走看看