zoukankan      html  css  js  c++  java
  • Python图形验证码识别

    一,OCR  

      OCR,即Optical Character Recognition,光学字符识别,通过扫描字符,分析形状,然后将其翻译成电子文本的过程。tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层封装。安装tesserocr之前需要先按照tesseract。

    二,准备工具

      安装库tesserocr,windows下安装前需要下载安装tesseract,

      tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

        

      图中有很多版本,其中带dev的为开发版本,不带dev的为稳定版本,推荐下载稳定版本。

        

      安装时勾选Additional language data选项来安装OCR识别支持的语言包,可以识别多国语言。然后一直点击Next即可。

      接下来,安装tesserocr即可:pip3 install tesserocr pillow

      whl安装包下载链接:https://github.com/simonflueckiger/tesserocr-windows_build/releases

      选择合适的版本下载   运行

      pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl

    三、代码

    import tesserocr
    from PIL import Image
    
    image = Image.open('code.png')
    res = tesserocr.image_to_text(image)
    print(image, res)
    # 二值化
    image = image.convert('L')
    threshold = 127
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    
    image = image.point(table, '1')
    image.show()
    
    result = tesserocr.image_to_text(image)
    print(result)
  • 相关阅读:
    DataGridView编辑后立即更新到数据库的两种方法
    Azure 意外重启, 丢失sql server master表和 filezilla
    欧洲美食精选-德国篇
    Azure 负载均衡和可用性集
    windows Azure 域名绑定
    Azure billing 分析(2)
    Azure billing 分析
    试用windows Azure
    Excel公式无法重算,暂无法解决
    iphone 语音备忘录 同步问题
  • 原文地址:https://www.cnblogs.com/zivli/p/10986221.html
Copyright © 2011-2022 走看看