zoukankan      html  css  js  c++  java
  • Windows环境安装tesseract-ocr 4.00并配置环境变量

     第一步:
     官方安装包下载地址:download
         因为只包含英文语言包,如果需要其他语言包下载地址:download the appropriate training data
         并将语言包解压至tessdata目录。

    最常用的简体字识别包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata,也可以从上面的语言包下载地址获取各种你所需要的语言包

    第二步:

    直接执行下载好的tesseract-ocr-setup-4.00.00dev.exe(我的),下一步、下一步安装。其中




    如果可以,也可以全部勾选,避免以后再单独下载字符库,其实我是全部下载,不过过程有点漫长,超级慢,我是隔夜安装好的。


    第三步:配置环境变量

    注意:我的系统是win7,其他系统应该差不多,跟配置java变量一样

    复制你的安装地址,我的是安装在C:Program Files (x86)Tesseract-OCR,界面如下:



    复制安装路径“C:Program Files (x86)Tesseract-OCR”,进入“控制面板系统和安全系统”,点击

    “系统保护”(就是修改环境变量)


    刚才的安装路径“C:Program Files (x86)Tesseract-OCR”添加到的PATH中

    配置好了点击保存。

     

    打开命令终端,输入:tesseract -v,可以看到版本信息



    如果出现报错,估计是环境变量没配置好。

    到这里,我们就算安装完成了,但是,我们的系统还是无法识别中文的,我们要去下载简体汉字、繁体汉字语言包(上文给了地址了),下载好之后放到安装目录的tessconfigs目录下即可。

    补充:因为没有配置全局变量,无法跨盘执行数据转换,这里我们在环境变量那增加一个配置信息

    系统变量—->新建:


    增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:Program Files (x86)Tesseract-OCR;

    命令行操作:

    查看Tesseract-OCR支持语言
    tesseract --list-langs
    利用Tesseract-OCR识别
     tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
    如输入:

    tesseract 1.jpg 1.txt -l chi_sim+equ+eng

    然后回车

    1.jpg是当前目录中的1.jpg图片

    1.txt是指定结果输出到文本文件

    -l是指定使用的包

    chi_sim是中文识别包,equ是数学公式包,eng是英文包



  • 相关阅读:
    Tarjan专题
    Catalan数
    状压DP
    威尔逊定理证明:
    【fzoj 2376】「POJ2503」Babelfish
    Android 源码
    Android实现推送方式解决方案
    Android apk 签名
    圆角的实现
    Android 资源
  • 原文地址:https://www.cnblogs.com/mxhmxh/p/9367677.html
Copyright © 2011-2022 走看看