zoukankan      html  css  js  c++  java
  • pytesseract

    import pytesseract
    import cv2
    
    
    img = cv2.imread("captcha.jpg",0)
    try:
        img.shape
    except AttributeError:
        pass
    else:
        code = pytesseract.image_to_string(img)
        print(code)
    

    centos 安装tesseract

    yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
    sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
    yum update
    yum install tesseract 
    yum install tesseract-langpack-deu
    

      

    接口就是pytesseract.image_to_string(),前提就是需要安装tesseract-OCR,并加入环境变量。

    这里再记录一下识别中文的流程:

    1. 下载二进制windows安装包

    https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

    一键傻瓜式安装。安装完成后不要忘记把tesseract.exe所在路径加入环境变量。

    2.安装简体中文包

    https://github.com/tesseract-ocr/tessdata

    下载chi_sim.traineddata并将其放入C:Program Files (x86)Tesseract-OCR essdata路径下。

    最后,可以识别了,但是识别率惨的一批。。。。还需要我们训练自己的字体库。

  • 相关阅读:
    UI自动化测试框架
    Pyse( selenium-api的二次封装)
    Selenium之webdriverAPI
    selenium 基础之定位方式
    html综合应用
    html基础之js操作
    html基础之Dom操作
    (九)Locust 参数化
    (八)Locust 设置断言
    (七)Locust 的类和方法
  • 原文地址:https://www.cnblogs.com/zenan/p/9242016.html
Copyright © 2011-2022 走看看