zoukankan      html  css  js  c++  java
  • python实现中文图片文字识别--OCR about chinese text--tesseract

    0.我的环境:

    win7 32bits

    python 3.5

    pycharm 5.0 

    1.相关库

    安装pillow:

    pip install pillow

    安装tesseract:

    tesseract-ocr-setup-3.02.02.exe

    自带了英文语言包,如果需要中文语言包往下找即可。

    或者在安装的时候,在选项lang处,点选chi-sim即可。

    安装完毕后,会儿自动加入系统环境变量中。

    安装pytesseract:

    pip install pytesseract

    2.修改pytesseract.py原文件

    # tesseract_cmd = 'tesseract'

    tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

    #如果不修改,会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。

    #f = open(output_file_name)

    f = open(output_file_name, encoding='utf-8')

    #如果不修改,会儿报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence

    3.小程序,测试一下

     1 #coding:utf-8
     2 #Test one page
     3 import pytesseract
     4 from PIL import Image
     5 
     6 def processImage():
     7     image = Image.open('test.png')
     8 
     9     #背景色处理,可有可无
    10     image = image.point(lambda x: 0 if x < 143 else 255)
    11     newFilePath = 'raw-test.png'
    12     image.save(newFilePath)
    13 
    14     content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng')
    15     #中文图片的话,是lang='chi_sim'
    16     print(content)
    17 
    18 processImage()
    ************************************
    给我一个支点,我可以改变整个世界!
  • 相关阅读:
    linux基础_用户和组的三个文件
    python_文件
    linux基础_用户组的管理
    mysql基础_数据类型
    mysql基础_操作数据库、表、记录
    linux基础_用户管理
    python_集合
    linux基础_关机重启注销
    docker创建私有仓库
    制作docker镜像
  • 原文地址:https://www.cnblogs.com/flyinghorse/p/5765788.html
Copyright © 2011-2022 走看看