Tesseract——OCR图像识别入门篇

zoukankan html css js c++ java

Tesseract——OCR图像识别入门篇

Tesseract——OCR图像识别入门篇

最近给了我一个任务，让我研究图像识别，从我们项目的screenshot中识别文字信息，so我开始了学习，与大家分享下。

我看到目前OCR技术有很多，最主要的是Asprise OCR，Tesseract OCR和Java OCR。

Asprise OCR速度很快，Java实现很简单，但是它是商业的，要收费的，免费版每次都要弹出对话框，是个很麻烦的事情。

Tesseract OCR是C++的，要使用cmd命令的，速度也很快，质量也很好。当然Java也是可以使用的。

Java OCR是纯Java的，效率也不错。

今天先记录下Tesseract吧，后续再补充

1. 首先从官网上下载压缩包，最新版本是Tesseract 3.03，之前的版本可以从这里下载.

2. 解压下载好的压缩包到本地目录。

3. 打开cmd窗口，进入到tesseract目录下，然后就可以开始我们的测试之旅啦

1）选择好你所要识别的图片，并确定你所要输出的文件，然后输入下列命令:

tesseract letter.png 1

"letter.png": 需要识别的图片

"1": 输出的文件 1.txt

2) 我们已经把图片中的信息解析出来啦。

来自: http://blog.csdn.net/PanRuiFang/article/details/27191739

上面说道tesseract 是支持中文的，所以么，接下来看看如何使用tesseract 实现我们中文的识别，下面继续介绍其他参数

参数3：-l

参数4：使用的语言库

参数3 -l应该是知道参数4所使用的语言库，默认英文，也就是为什么上面识别英文的例子，并没有输入参数3和参数4，也实现了识别。

下面继续我们的实验：

我们准备了一张图片，然后使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文语言，然后效果图上，还是很不错的，毕竟我们的中文是如此的博大精深，并且tesseract可以经过训练，然后识字的能力就会大幅度提升。

好了，由于一行代码没写，就不上传代码了，大家自己去官网下载。接下来我会使用Java带大家实现这样的小程序。

来自: http://blog.csdn.net/lmj623565791/article/details/23955883

查看全文

相关阅读:
CentOS Redmine 安装
 [转]Fedora 16 改变启动顺序以及grub2 配置技巧
 impdp/expdp 使用
 Bash 快捷键
 VirtualBox双网卡虚拟机LinuxNAT不能上网
 PRO*C结果集
 Arch Linux 安装配置
 ORA01658: 无法为表空间HS_HIS_DATA中的段创建 INITIAL 区
 XP远程桌面模式下开启ClearType
制作索引

原文地址：https://www.cnblogs.com/mjorcen/p/3796200.html

Tesseract——OCR图像识别 入门篇

Tesseract——OCR图像识别入门篇