zoukankan      html  css  js  c++  java
  • python从图片中提取文字

    笔者环境:Arch Linux

    1. 系统安装teseract和英文中文语言包

    arch下安装十分简单,pacman会自动帮我们解决所有依赖

    sudo pacman -S tesseract tesseract-data-eng tesseract-data-chi_sim
    

    2. python安装必要的第三方库

    sudo pip install pillow
    sudo pip install pytesseract
    

    2. 代码展示

    分别识别中文,英文,数字

    我测试时识别的图片在代码同一目录下的img目录下

    import os
    import pytesseract
    from PIL import Image
    
    BASE_DIR = os.path.dirname(__file__)
    
    zh_img = os.path.join(BASE_DIR, "img/zh_demo.png")
    en_img = os.path.join(BASE_DIR, "img/en_demo.png")
    num_img = os.path.join(BASE_DIR, "img/num_demo.png")
    
    zh = pytesseract.image_to_string(Image.open(zh_img), lang="chi_sim").replace(" ","")    # 中文识别有时不是特别准确,识别结果中间有空格
    en = pytesseract.image_to_string(Image.open(en_img))    # 也只有识别规矩的英文和数字了,可以用来破解低级验证码
    num = pytesseract.image_to_string(Image.open(num_img))
    
    print(zh)	# 山重水覆疑无路,柳暗花明又一村
    print(en)	# kainhuck
    print(num)	# 0771-5785703
    
    
    
  • 相关阅读:
    IDEA2019破解版安装
    Docker (一)安装与基本命令
    js导出PDF
    python入门笔记一安装
    微信内关闭当前页面
    微信一些网页
    内网穿透工具:钉钉HTTP内网穿透使用详解
    html生成二维码,qr
    IDEA无法正常启动(打不开&报错)
    微信测试号
  • 原文地址:https://www.cnblogs.com/kainhuck/p/12482993.html
Copyright © 2011-2022 走看看