zoukankan      html  css  js  c++  java
  • 【Tesseract】windows 下的安装及简单应用

    Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护。下载地址:https://digi.bib.uni-mannheim.de/tesseract/

     

    其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本。

     

    安装时可以添加支持的语言包,如下界面最后一个选项点开选择,我们可以选择简体中文 Chiness(Simplified)。

    安装完成后还需要将安装路径添加至环境变量。

     

    打开 cmd,输入命令 tesseract -v,看到输出版本信息即代表安装成功。

    识别命令:tesseract 图片路径 结果文件名 -l 语言

    1、将 cmd 切换到图片所在路径,则可以只输入图片名,否则需要全路径

    2、结果文件名不可以加后缀,必定会自动加 .txt 后缀,如果结果文件名写 a.txt,则最后输出的文件名为 a.txt.txt。

    3、-l 是英文字母L,不是数字1,language的意思。

    4、语言英文为 eng,简体中文为 chi_sim

     

    截了个谷歌的图片来测试

    输入命令:tesseract 1.png a -l eng,结果如下,识别正确

    我们尝试用简体中文试试

    识别就有误了。

    中文的识别可以另外截图试试,只是正确率并不高。

     

    我 tesseract 是安装在 C 盘的,在 C 盘运行命令识别没问题,但在 D 盘打开 cmd 运行命令就报错了:

    Error opening data file ….

    Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.

    Failed loading language ‘eng’

    Teseract couldn’t load any languages!

    Counld not initialize tesseract

     

    意思就是要将 tessdata 的父文件夹路径设置为名为 TESSDATA_PREFIX 的环境变量值。设置完成之后需要重启电脑,否则依然报错。

  • 相关阅读:
    android 的 ExpandableListView Example Tutorial
    EOS token 代币兑换的资料
    EOS 的网站及资料doc
    Cardano(ADA), EOS, RChain(RHOC), Aeternity(AE) 都是极其好的币
    zcash 的资料
    office很抱歉遇到一些临时服务器问题
    win10windows无法创建快捷方式 请检查磁盘
    FYI是什么意思?
    Wamp win10 1077error
    如何注销考拉?
  • 原文地址:https://www.cnblogs.com/gl1573/p/9876397.html
Copyright © 2011-2022 走看看