zoukankan      html  css  js  c++  java
  • mac下安装tesseract-OCR(Mac下还是有lib依赖的问题,有时间再解决)

    1、先下载需要的软件包

           OCR工具:  Tesseract-OCR3.0.1  source code    tesseract-ocr-3.01.eng.tar.gz 破验证码用英文就够了。

           图像处理工具:  Leptonica  1.68

           png识别工具:  libpng

           jpeg识别工具 :libjpeg

           tif识别工具:   libtiff

    2、安装步骤

          1-  安装libpng,libjpeg,libtiff

    以下是命令:

    ./configure  

    make  

    sudo make install   

        2-安装Leptionica

    以下是命令:

    ./configure   --with-libjpg --with-libtiff --with-libpng

    make  

    sudo make install  

    make的时候如果发现错误,提示

      pngio.c:119: error: ‘Z_DEFAULT_COMPRESSION’ undeclared here (not in a function)

       去wiki上搜了一把发现是 pngio.c这个文件有个BUG,在MAC下无法找到zlib1g包修改Leptionica/src/pngio.c在  #include "png.h"后插入一下代码即可

    以下为命令代码:

    #ifdef HAVE_LIBZ  

    #include "zlib.h"  

    #endif  

        3- 安装Tesseract-OCR

        以下为命令

    ./autogen.sh  

    ./configure  

    make  

    sudo make install

       如果发现错误,可以改成以下命令:

    ./autogen.sh
    export LIBLEPT_HEADERSDIR=/usr/local/include
    ./configure --with-extra-libraries=/usr/local/lib
    sudo make install

        4- 安装语言包

        解压tesseract-ocr-3.01.eng.tar.gz到/usr/local/share/tesseract就可以了。

    3、try ocr

    1. MacBook-Pro:work my$ tesseract pin.jpg  out -l eng  
    2. Tesseract Open Source OCR Engine v3.01 with Leptonica  
    3. MacBook-Pro:work my$ more out.txt   
    4. Bvcs

    至此,已经tesseract已经可以正常工作了。

    剩下我们写段代码去通过命令行调用就可以实现图片的识别了。

    tesseract自己提供的训练好的语言包不能保证百分百识别出验证码图片,这个可以通过抓取一定量的验证码来进行

    训练,以更加精准的识别,官方有文档和工具如何进行

    http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

    转自(略有修改):http://holybless.iteye.com/blog/1338717

  • 相关阅读:
    day12. 闭包
    day11.函数的全局变量和局部变量
    day10.函数基础及函数参数
    day9.关于文件的操作
    day7.关于字符串的相关操作
    day8.列表、字典、集合相关操作
    day6. while双项循环及for循环
    LeetCode-Unique Binary Search Trees II
    LeetCode-Unique Binary Search Trees
    LeetCode-Edit Distance
  • 原文地址:https://www.cnblogs.com/gradven/p/6400758.html
Copyright © 2011-2022 走看看