zoukankan      html  css  js  c++  java
  • python3光学字符识别模块tesserocr与pytesseract

    OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程

    tesserocr与pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract

    1、安装tesseract、tesserocr、pytesseract 

    (1)windows下的安装

    下载tesseract:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe

    然后双击程序安装即可,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:Program Files (x86)Tesseract-OCR essdata目录下,最后我们配置下环境变量,我们将C:Program Files (x86)Tesseract-OCR添加到环境变量中

    在测试之前先了解下tesseract的命令程序格式:

     tesseract imagename outputbase [-l lang]

    imagename指定图片名称,outputbase指定输出文件名,-l指定识别的语言

    #显示安装的语言包
    tesseract --list-langs
    
    #显示帮助
    tesseract --help
    tesseract --help-extra
    tesseract --version

    进行测试:

    #统计安装的语言包,安装了168个语言包
    C:UsersAdministrator.DESKTOP-6JT7D2H>tesseract --list-langs | find /c /v ""
    168
    
    #使用一张图片测试,成功识别字符串
    tesseract image.png result -l eng |type result.txt
    Python3WebSpider

    由于tesserocr在windows环境下会出现各种不兼容问题,并且与pycharm虚拟环境不兼容等问题,所以在windows系统环境下,选择pytesseract模块进行安装,如果实在要安装请使用whl文件安装或者使用conda安装

    pip install pytesseract

    如果在pytesseract运行是找不到tesseract解释器,这种情况一般是在虚拟环境下会发生,我们需要将tesseract-OCR的执行文件tesseract.ext配置到windows系统中的PATH环境中,或者修改pytesseract.py文件,将其中的“tesseract_cmd”字段指定为tesseract.exe的完整路径即可

    测试识别功能:

    import pytesseract
    from PIL import Image
    
    im=Image.open('image.png')
    print(pytesseract.image_to_string(im))

    (2)linux下的安装

    在Ubuntu、Debian、Deepin系统中,安装命令如下:

    #安装tesseract
    sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
    
    #安装语言包
    git clone https://github.com/tesseract-ocr/tessdata.git
    sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
    
    #安装tesserocr
    pip3 install tesserocr

    #安装pytesseract
    pip3 install pytesseract

    在CentOS、Red Hat系统下,安装命令如下:

    #安装tesseract
    yum install -y tesseract
    
    #安装语言包
    git clone https://github.com/tesseract-ocr/tessdata.git
    mv tessdata/* /usr/share/tesseract/tessdata
    
    #安装tesserocr
    pip3 install tesserocr

    #安装pytesseract
    pip3 install pytesseract

     测试安装环境:

    In [1]: import tesserocr
    In [2]: from PIL import Image
    In [3]: im=Image.open('image.png')
    In [4]: tesserocr.image_to_text(im)
    Out[4]: 'Python3WebSpider
    
    '

    tesserocr安装参考链接:https://github.com/sirfz/tesserocr

    pytesseract安装参考链接:https://github.com/madmaze/pytesseract

    tesseract安装参考链接:https://github.com/tesseract-ocr/tesseract/wiki

    2、tesserocr与pytesseract模块的使用

    (1)tesserocr的使用

    #从文件识别图像字符
    In [7]: tesserocr.file_to_text('image.png')
    Out[7]: 'Python3WebSpider
    
    '
    
    #查看tesseract已安装的语言包
    In [8]: tesserocr.get_languages()
    Out[8]: ('/usr/share/tesseract/tessdata/', ['eng'])
    
    #从图片数据识别图像字符
    In [9]: tesserocr.image_to_text(im)
    Out[9]: 'Python3WebSpider
    
    '
    
    #查看版本信息
    In [10]: tesserocr.tesseract_version()
    Out[10]: 'tesseract 3.04.00
     leptonica-1.72
      libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
    '

    (2)pytesseract使用

    功能:

    • get_tesseract_version  返回系统中安装的Tesseract版本。
    • image_to_string  将图像上的Tesseract OCR运行结果返回到字符串
    • image_to_boxes  返回包含已识别字符及其框边界的结果
    • image_to_data  返回包含框边界,置信度和其他信息的结果。需要Tesseract 3.05+。有关更多信息,请查看Tesseract TSV文档
    • image_to_osd  返回包含有关方向和脚本检测的信息的结果。

    参数:

    image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

    • image object  图像对象
    • lang String,Tesseract  语言代码字符串
    • config String  任何其他配置为字符串,例如:config='--psm 6'
    • nice Integer  修改Tesseract运行的处理器优先级。Windows不支持。尼斯调整了类似unix的流程的优点。
    • output_type  类属性,指定输出的类型,默认为string有关所有支持类型的完整列表,请检查pytesseract.Output的定义
    from PIL import Image
    import pytesseract
    
    #如果PATH中没有tesseract可执行文件,请指定tesseract路径
    pytesseract.pytesseract.tesseract_cmd='C:Program Files (x86)Tesseract-OCR\tesseract.exe'
    
    #打印识别的图像的字符串
    print(pytesseract.image_to_string(Image.open('test.png')))
    
    #指定语言识别图像字符串,eng为英语
    print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='eng'))
    
    #获取图像边界框
    print(pytesseract.image_to_boxes(Image.open('test.png')))
    
    #获取包含边界框,置信度,行和页码的详细数据
    print(pytesseract.image_to_data(Image.open('test.png')))
    
    #获取方向和脚本检测
    print(pytesseract.image_to_osd(Image.open('test.png'))

    3、图像识别简单应用

     一般图像处理验证,需要通过对图像进行灰度处理、二值化后增加图像文字的辨识度,下面是一个简单的对图像验证码识别处理,如遇到复杂点的图像验证码如中间带多条同等大小划线的验证码需要对文字进行乔正切割等操作,但它的识别度也只有百分之30左右,所以得另外想别的办法来绕过验证

    from PIL import Image
    import pytesseract
    
    im = Image.open('66.png')
    #二值化图像传入图像和阈值
    def erzhihua(image,threshold):
        ''':type image:Image.Image'''
        image=image.convert('L')
        table=[]
        for i in range(256):
            if i <  threshold:
                table.append(0)
            else:
                table.append(1)
        return image.point(table,'1')
    
    
    image=erzhihua(im,127)
    image.show()
    
    result=pytesseract.image_to_string(image,lang='eng')
    print(result)

    模拟自动识别验证码登陆:

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @Time    : 2018/7/13 8:58
    # @Author  : Py.qi
    # @File    : login.py
    # @Software: PyCharm
    from selenium import webdriver
    from selenium.common.exceptions import TimeoutException,WebDriverException
    from selenium.webdriver.common.by import By
    from selenium.webdriver.common.keys import Keys
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.remote.webelement import WebElement
    from io import BytesIO
    from PIL import Image
    import pytesseract
    import time
    
    user='zhang'
    password='123'
    url='http://10.0.0.200'
    driver=webdriver.Chrome()
    wait=WebDriverWait(driver,10)
    
    #识别验证码
    def acker(content):
        im_erzhihua=erzhihua(content,127)
        result=pytesseract.image_to_string(im_erzhihua,lang='eng')
        return result
    
    #验证码二值化
    def erzhihua(image,threshold):
        ''':type image:Image.Image'''
        image=image.convert('L')
        table=[]
        for i in range(256):
            if i <  threshold:
                table.append(0)
            else:
                table.append(1)
        return image.point(table,'1')
    
    #自动登陆
    def login():
        try:
            driver.get(url)
            #获取用户输入框
            input=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#loginname'))) #type:WebElement
            input.clear()
            #发送用户名
            input.send_keys(user)
            #获取密码框
            inpass=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#password'))) #type:WebElement
            inpass.clear()
            #发送密码
            inpass.send_keys(password)
            #获取验证输入框
            yanzheng=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#code'))) #type:WebElement
            #获取验证码在画布中的位置
            codeimg=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#codeImg'))) #type:WebElement
            image_location = codeimg.location
            #截取页面图像并截取掩码码区域图像
            image=driver.get_screenshot_as_png()
            im=Image.open(BytesIO(image))
            imag_code=im.crop((image_location['x'],image_location['y'],488,473))
            #输入验证码并登陆
            yanzheng.clear()
            yanzheng.send_keys(acker(imag_code))
            time.sleep(2)
            yanzheng.send_keys(Keys.ENTER)
        except TimeoutException as e:
            print('timeout:',e)
        except WebDriverException as e:
            print('webdriver error:',e)
    
    if __name__ == '__main__':
        login()

    参考链接:

    tesserocr GitHub:https://github.com/sirfz/tesserocr

    tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

    pytesserocr GitHub:https://github.com/madmaze/pytesseract

    pytesserocr PyPI:https://pypi.org/project/pytesseract/

    tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract

    tesseract GitHub:https://github.com/tesseract-ocr/tesseract

    tesseract 语言包:https://github.com/tesseract-ocr/tessdata

    tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

  • 相关阅读:
    github中,一些涉及到用户配置的文件怎么处理(比如数据库用户名/密码)?
    XMLHttpRequest cannot load file浏览器无法异步加载本地file文件
    HTML小技巧
    HTML实体符号代码速查表
    宽度不固定,水平居中
    CSS实现背景透明,文字不透明
    window.inner 兼容IE8
    div横排放置对齐问题;block,inline,inline-block区别
    IE兼容CSS3圆角border-radius的方法(同时兼容box-shadow,text-shadow)
    js 值和引用
  • 原文地址:https://www.cnblogs.com/zhangxinqi/p/9297292.html
Copyright © 2011-2022 走看看