[转]tesseract-OCR字符识别引擎使用入门

zoukankan html css js c++ java

[转]tesseract-OCR字符识别引擎使用入门

tesseract-OCR字符识别引擎使用入门

原文地址：http://blog.csdn.net/Xing20150602/article/details/47189545

2015-08-01 20:06 675人阅读评论(3) 收藏举报

分类：

tesseract-OCR

版权声明：本文为博主原创文章，未经博主允许不得转载。

1.下载tesseract-ocr-setup-3.02.02.exe 直接安装，简单方便，安装选项默认。下载地址 http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.02.02.exe&can=2&q=

安装会生成目录..Tesseract-OCR  该目录下初始文件如图:

安装完成后 win+R 打开“运行” 输入 cmd 确定在命令行下输入 tesseract 显示如图信息表示安装成功：

输入tesseract 后显示的信息是一些命令参数信息

在放有测试用的图片目录下输入 tesseract imagename outputbase [-l eng] [-psm pagesegmode]

其中：

imagename是图片文件名如果命令行当前所在目录不是测试用图片存放目录需要用图片的绝对路径

outputbase是图片识别后输出的文件名路径规则同imagename  输出文件格式为txt 因此输出文件名不需要加后缀名

-l lang 是选择识别时所用的字库英文字库名为eng 中文字库名为chi_sim 该参数为可选参数默认为英文字库

-psm pagesegmode 也是一个可选参数默认值为3  不同的值用来说明待识别图片提高识别率，不同值的含义如下：

0 =只进行定向和脚本检测（OSD）

1 =通过OSD进行页面自动分割

2 =自动分割，但没有OSD，或OCR

3 =全自动分割，但没有OSD（默认）

.4 =假设待识别图片是一列的文本

5 =假设待识别图片是一个统一的垂直对齐的文本块

6 =假设待识别图片是一个统一的文本块

7 =把图像作为一个单一的文本行

8 =把图像当作一个字

9 =把图像作为一个字在一个圆圈中

10 =把图像当作一个单独的字符

可以使用

tesseract -v 或者tesseract --version 查看tesseract和leptonica等一些库文件的版本信息

tesseract --list-langs 查看可以使用的字库

除了上述方法，还可以从这：https://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.02.tar.gz&can=2&q= 下载源码自己编译，方法可以参照这里：http://tesseract-ocr.googlecode.com/svn/trunk/vs2008/doc/building.html#building-tesseractocr-with-visual-c-2008-express-edition

如果觉得下载exe文件安装的方法太low 可以尝试一下上面的方法建议使用visusl studio 2008！

鉴于本人是刚刚接触tesseract和csdn 望各位网友不吝赐教！！！传的两张图片不知道上传成功没有，可以在相册里找到！！！

查看全文

相关阅读:
xcode 工具栏中放大镜的替换的说明
 xcode 工具栏中放大镜的替换的简单说明
 xcode 资源管理
 泛型的冒泡，插入，选择，希尔算法
 一套手写ajax加一般处理程序的增删查改
 Android自定义控件_自绘控件
 查看自己Android设备分辨率
 Collection集合和 Map
深入理解Java中的面向对象
 webserivce请求头组装

原文地址：https://www.cnblogs.com/Crysaty/p/6437447.html