zoukankan      html  css  js  c++  java
  • Python3.7 tesseract-ocr 验证码识别配置以及常见错误

    当前为Windows环境

    1.首先安装Tesseract-OCR,链接:https://pan.baidu.com/s/12zazgAYWsNnxn8AxPjGfaw 提取码: esif 

      下载后默认安装就好,在安装过程中存在选项安装的情况,此时为选择语言,可略过

    2.Tesseract-OCR安装完毕后,设置环境变量

      设置tesseract.exe的环境变量

      新建TESSDATA_PREFIX环境变量,值为C:Program Files (x86)Tesseract-OCR essdata,如图

    3.验证Tesseract-OCR

      3.1 进入cmd 输入下面的命令查看版本,正常运行则安装成功:

        tesseract --version
      

        

      3.2 识别图片

        tesseract 图片路径 输出文件

        

          识别成功!!

    4.进入cmd安装python依赖

      4.1 安装依赖

        

    pip install pytesseract
    pip install pillow

      4.2 编写代码

        识别下面的验证码

        代码如下:

    import pytesseract
    from PIL import Image
    
    image = Image.open("F:/imooc2.png")
    text = pytesseract.image_to_string(image)
    print(text)

    结果为6067,识别成功

    5.此时特别容易出现错误

    解决方案1:仔细查看环境变量是否正确

    解决方案2:在代码中添加相关变量参数

    #coding=utf-8
    import pytesseract
    from PIL import Image
    pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)//Tesseract-OCR//tesseract.exe'
    tessdata_dir_config = '--tessdata-dir "C://Program Files (x86)//Tesseract-OCR//tessdata"'
    image = Image.open("F:/imooc2.png")
    text = pytesseract.image_to_string(image, lang ='eng', config=tessdata_dir_config)
    print(text)

      

     解决方案出处:https://www.cnblogs.com/chenshengkai/p/11318387.html

    
    
    
  • 相关阅读:
    推荐一个简洁优雅的博客系统,farbox
    flash从数据流判断图片格式防止xss攻击
    iBatis框架batch处理优化 (转)
    hadoop环境中误删除tmp文件夹的恢复
    Mysql04
    MapReduce中文翻译
    Big Table中文翻译
    GFS中文翻译
    HDFS读写流程
    两个网卡的设置
  • 原文地址:https://www.cnblogs.com/Testcase/p/11386453.html
Copyright © 2011-2022 走看看