zoukankan      html  css  js  c++  java
  • Windows安装Tesseract-OCR 4.00并配置环境变量

     

    一、前言

    Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

    GitHub 地址:https://github.com/tesseract-ocr/tesseract

    安装包官方下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

    安装包百度云盘下载地址:https://pan.baidu.com/s/1AOsJQzH5YrryuhuME-cqTQ

    二、安装 Tesseract-OCR

    直接执行下载好的 exe 文件,下一步、下一步默认安装即可。

    三、配置环境变量

    3.1 进入环境变量配置界面

    右键点击此电脑--属性--高级系统设置--环境变量--系统变量--Path

    3.2 添加系统变量

    找到系统变量的 Path ,将 Tesseract-OCR 的安装目录添加进去:

    3.3 添加 tessdata 系统变量

    如下图新建系统变量 : TESSDATA_PREFIX
    变量值为 tessdata 文件夹的路径(在Tesseract-OCR的安装目录下):

     

    四、使用 Tesseract-OCR

    4.1 进入cmd 输入下面的命令查看版本,正常运行则安装成功:

    tesseract --version

    4.2 使用下面命令识别图片

    tesseract 图片路径 输出文件


    查看输出的 result.txt文件:

    结果正确!

    ----------------------------------------------------------------------------------------------------------

    talk is cheap , show me the code.



    
    
    
  • 相关阅读:
    聊一聊分布式锁的设计
    github上值得关注的前端项目
    数据库水平切分的实现原理解析——分库,分表,主从,集群,负载均衡器(转)
    查询执行时间
    Autofac in webapi2
    Fluent Validation with Web Api 2
    数字转换成大写
    ABP:在多语句事务内不允许使用 CREATE DATABASE 语句
    陕西电力同业对标管理系统
    多媒体文件嵌入HTML中自动转码工具
  • 原文地址:https://www.cnblogs.com/chenshengkai/p/11318272.html
Copyright © 2011-2022 走看看