ORC相关的库介绍和应用

zoukankan html css js c++ java

ORC相关的库介绍和应用
将图像翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）

OCR库：Pillow、Tesseract、NumPy

Pillow

Pillow可以对图片进行预处理，比如图片背景色不是纯白，而是渐进色，那么就可以利用Pillow进行预处理得到相对清晰的图片来提供给Tesseract去识别。

Tesseract

Tesseract可以通过训练识别出任何字体（要求字体风格保持不变）

安装Tesseract

Tesseract不是python的库，所以不是通过import的方式导入，而是需要去下载安装，截至目前最新版本是 3.02.02。下载地址

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567

下载完成后解压，然后将该文件剪切到tessdata目录下去就可以了。字库文件：chi_sim.traineddata

Tesseract默认安装在C盘，默认安装是不是会自动添加环境变量，我没试。

我是安装在F盘 F:Program FilesTesseract-OCR。安装成功后，再去设置一下环境变量，把安装的路劲加到环境变量里就好了，或者执行指令：
#setx TESSDATA_PREFIX F:Program FilesTesseract OCR
安装的步骤我就不赘述了，安装的过程中出现失败的情况，没有关系，继续就OK。

接着去CMD指令界面中输入：C:UsersAdministrator>tesseract

如果出现下面的结果，那就是安装成功了！

为了验证下是否能识别成功，我在D盘根目录下放了一张图片

然后在cmd指令界面中输入如下指令：
C:UsersAdministrator>tesseract e:img.jpg e:img -l chi_sim
结果：（img默认是txt格式）

泪崩~

这识别是个什么几把玩意啊？？？不管识别的怎么样，人家也是识别了一部分不是？

NumPy

NumPy 并非解决OCR 问题时必须使用的库，但是如果你想训练Tesseract 识别，那么就会用到它。NumPy 是一个非常强大的库，具有大量线性代数以及大规模科学计算的方法。
查看全文

相关阅读:
C#基础知识委托与泛型（转载）
C.消息队列（转载）
可编辑的 HTML JavaScript 表格控件 DataGrid
Asp无组件上传进度条解决方案
 A lot of Javascript tips
资料只看看，不能copy/paste。
Converting Numbers to Strings
浅析Google技术底蕴
 ASP.NET makes uploading files from the client to the server a snap(UploadInterface.PostedFile.SaveAs)
IT IS an IMPORTANT String for Input TYPE=File Field enctype="multipart/formdata"

原文地址：https://www.cnblogs.com/zhouwp/p/8319528.html