zoukankan      html  css  js  c++  java
  • ORC相关的库介绍和应用

    将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)

    OCR库:Pillow、Tesseract、NumPy

    Pillow

    Pillow可以对图片进行预处理,比如图片背景色不是纯白,而是渐进色,那么就可以利用Pillow进行预处理得到相对清晰的图片来提供给Tesseract去识别。

    Tesseract

    Tesseract可以通过训练识别出任何字体(要求字体风格保持不变)

    安装Tesseract

    Tesseract不是python的库,所以不是通过import的方式导入,而是需要去下载安装,截至目前最新版本是 3.02.02。下载地址

    简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567

    下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。字库文件:chi_sim.traineddata

    Tesseract默认安装在C盘,默认安装是不是会自动添加环境变量,我没试。

    我是安装在F盘  F:Program FilesTesseract-OCR。安装成功后,再去设置一下环境变量,把安装的路劲加到环境变量里就好了,或者执行指令:

    #setx TESSDATA_PREFIX F:Program FilesTesseract OCR

    安装的步骤我就不赘述了,安装的过程中出现失败的情况,没有关系,继续就OK。

    接着去CMD指令界面中输入:C:UsersAdministrator>tesseract

    如果出现下面的结果,那就是安装成功了!

    为了验证下是否能识别成功,我在D盘根目录下放了一张图片

    然后在cmd指令界面中输入如下指令:

    C:UsersAdministrator>tesseract e:img.jpg e:img -l chi_sim
    

    结果:(img默认是txt格式)

    泪崩~

    这识别是个什么几把玩意啊???不管识别的怎么样,人家也是识别了一部分不是?

    NumPy

    NumPy 并非解决OCR 问题时必须使用的库,但是如果你想训练Tesseract 识别,那么就会用到它。NumPy 是一个非常强大的库,具有大量线性代数以及大规模科学计算的方法。

  • 相关阅读:
    CSS浮动(float、clear)通俗讲解
    JAVA 类的加载
    数据库操作 delete和truncate的区别
    正则表达式 匹配相同数字
    Oracle EBS OM 取消订单
    Oracle EBS OM 取消订单行
    Oracle EBS OM 已存在的OM订单增加物料
    Oracle EBS OM 创建订单
    Oracle EBS INV 创建物料搬运单头
    Oracle EBS INV 创建物料搬运单
  • 原文地址:https://www.cnblogs.com/zhouwp/p/8319528.html
Copyright © 2011-2022 走看看