zoukankan      html  css  js  c++  java
  • python安装terseract,进行图像识别

    Tesseract简介及环境搭建

    简介

    Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生。在2005年,Tesseract由美国内华达州信息技术研究所获得,并委托Google对其进行改进、优化工作。

    Tesseract目前已作为开源项目发布在Google Project,它与Leptonica图片处理库结合,可以读取各种格式的图像并将它们转化成超过60种语言的文本,我们还可以不断训练自己的库,使图像转换文本的能力不断增强。如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。


    (摘自--链接:https://www.jianshu.com/p/f0f05ff2dc2e)

    安装

    我们需要安装图像识别引擎terseract-orc以及python调用terseract的terseract库

    首先安装orc,安装连接https://digi.bib.uni-mannheim.de/tesseract/

    最好选取不带有dev的,dev代表他还不是稳定的

     

     ,下载之后双击运行,选择自己要下载的语言库,选取chinese(simple)应该就够了,默认为English。

    下载完之后可以选择将其加入到path环境中(添加示例:https://blog.csdn.net/showgea/article/details/82656515),

    也可以不添加使用以下代码替换:

    # 选取自己的安装路径
    pytesseract.pytesseract.tesseract_cmd = 'F:\tesseract\Tesseract-OCR\tesseract.exe'

    然后安装python库,直接用pip下载就可以。

    pip install pytesseract

    实例

    图像:

     

    代码

    import pytesseract
    from PIL import Image
     
    # 选取自己的安装路径
    pytesseract.pytesseract.tesseract_cmd = 'F:\tesseract\Tesseract-OCR\tesseract.exe'
    # 图像地址
    text = pytesseract.image_to_string(Image.open(r'D:pic图像识别.png'))
     
    # 打印结果
    print(text)

    结果为

     

    识别度还是很高的。

  • 相关阅读:
    代码优化:尽量减少对变量的重复计算
    Easy code数据库类型NUMBER(20),没有找到映射关系
    Apache JMeter的下载和安装
    启动报错:Error Running cant find catalina.jar
    创建自定义配置节
    Word转Chm 在线转换应用
    silverlight概述
    布局
    case of silverlight
    关于SilverLight打印(二)
  • 原文地址:https://www.cnblogs.com/msdog/p/12653637.html
Copyright © 2011-2022 走看看