zoukankan      html  css  js  c++  java
  • 在VS2010下编译和使用tesseract_ocr识别验证码

    对于自动识别验证码,使用trsseract是个不错的选择,有兴趣的的朋友可以试试。


    编译tesseract

    官网提供了vs2008的编译说明和工程,但在vs2010下的编译时基本相同的,因此我使用的方法就是把vs2008工程转换为vs2010工程,

    同时把编译过程中遇到的问题以及解决方法和大家分享一下,希望对正准备使用trsseract库的朋友有所帮助。

    下载代码

    google code下载一下源代码,并建立build目录。

    •   tesseract-ocr-3.02.02.tar.gz   tesseract源代码
    •   tesseract-ocr-3.02-vs2008.zip vs2008工程文件
    •   leptonica-1.68-win32-lib-include-dirs.zip   tesseract依赖的leptonica的lib和dll文件

    创建tesseract-build文件夹,把下载的三个文件解压,得到以下目录结构:

    tesseract-build
    ├─include              // 保存leptonica-1.68-win32-lib-include-dirs.zip解压后头文件
    │  └─leptonica
    ├─lib   // 保存leptonica-1.68-win32-lib-include-dirs.zip解压后库文件
    ├─tesseract-ocr    // 保存tesseract源代码以及vs2008工程文件
         └─vs2008

    在tesseract-ocr目录下复制一份vs2008文件夹,改为名vs2010。

    打开工程文件vs2010 esseract.sln,按vs2010的提示自动转换工程。

    完成后选择编译配置DLL_Debug,编译。

    编译过程会出现以下错误:

    1>  equationdetect.cpp
    1>....ccmainequationdetect.cpp : warning C4819: 该文件包含不能在当前代码页(936)中表示的字符。请将该文件保存为 Unicode 格式以防止数据丢失
    1>....ccmainequationdetect.cpp(251): error C2146: 语法错误: 缺少“}”(在标识符“銆”的前面)
    1>....ccmainequationdetect.cpp(251): error C2146: 语法错误: 缺少“;”(在标识符“銆”的前面)
    1>....ccmainequationdetect.cpp(251): error C2065: “銆”: 未声明的标识符
    1>....ccmainequationdetect.cpp(251): error C2146: 语法错误: 缺少“;”(在标识符“銆”的前面)
    1>....ccmainequationdetect.cpp(251): error C2065: “銆”: 未声明的标识符
    1>....ccmainequationdetect.cpp(251): error C2146: 语法错误: 缺少“;”(在标识符“銆”的前面)
    1>....ccmainequationdetect.cpp(251): error C2065: “銆”: 未声明的标识符
    1>....ccmainequationdetect.cpp(251): error C2143: 语法错误 : 缺少“;”(在“}”的前面)
    1>....ccmainequationdetect.cpp(253): error C2065: “kCharsToEx”: 未声明的标识符
    1>....ccmainequationdetect.cpp(253): fatal error C1903: 无法从以前的错误中恢复;正在停止编译


    这是错误由于文件编码格式引起的。

    解决方法:

      选择vs2010的菜单“文件 -- 高级保存选项”,在窗口中选择“简体中文(gb2312)-代码页936”,保存后重新编译。

    编译完成后生成dll文件:vs2010DLL_Debuglibtesseract302d.dll


    测试tesseract

    编译tesseract工程,生成DLL_Debug esseract.exe

    下载英文语言库tesseract-ocr-3.02.eng.tar.gz,解压到DLL_Debug文件夹。

    还需要把tesseract-buildlibliblept168d.dll复制到DLL_Debug目录。

    运行tesseract.exe,但系统提示运行失败:

    在VS2010下编译和使用tesseract_ocr识别验证码

    原因是我使用的liblept168d.dll是vs2008编译的(leptonica-1.68-win32-lib-include-dirs.zip),系统中没有安装vs2008的运行环境,因此无法启动。

    解决方法

      1 根据官网说明,可以使用liblept168d静态库编译。

        选择LIB_Debug编译配置,重新生成以上文件。

      2 使用vs2010重新编译liblept168d.dll,可以参考编译方法。

        文中介绍的还是vs2008,但vs2010过程完全一样,具体这里不做说明了,一步一步照做就行。

        我这里提供编译好的库,需要的可以下载。

    生成后,使用京东商城的验证码进行测试:

    在VS2010下编译和使用tesseract_ocr识别验证码

    另存图片为image.jpg  在VS2010下编译和使用tesseract_ocr识别验证码

    tesseract.exe image.jpg image

    输出image.txt,结果是QYRH

    使用tesseract.lib进行二次开发

    创建test工程,保存在编译目录下:

    tesseract-build
    └─testtess // 测试工程

         └─testtess.sln

    复制tesseract头文件

    官网提供了一个python脚本,可以把开发使用的头文件复制到指定目录下:

    python.exe tesshelper.py .. copy ....include

    代码

    #include "stdafx.h"#include "tesseractaseapi.h"#include "tesseractstrngs.h"int _tmain(int argc, _TCHAR* argv[]){    const char * image = "image.jpg";        tesseract::TessBaseAPI  api;    api.Init(NULL, "eng", tesseract::OEM_DEFAULT);    api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" );    STRING text_out;    if (!api.ProcessPages(image, NULL, 0, &text_out))    {        return 0;    }    printf(text_out.string());     return 0;}

    编译后用刚才下载的image.jpg文件。

    注意运行时需要语言库。

  • 相关阅读:
    一个printf(结构体指针)引发的血案
    C语言指针从底层原理到花式技巧,用图文和代码帮你讲解透彻
    利用C语言中的setjmp和longjmp,来实现异常捕获和协程
    提高代码逼格的利器:宏定义从入门到放弃
    我最喜欢的进程之间通信方式消息总线
    推荐一个阅读代码、文档的利器:屏幕贴图工具
    计算机网络基础知识总结
    vi指令总结
    LVS 负载均衡器理论基础及抓包分析
    Linux命令总结大全,包含所有linux命令
  • 原文地址:https://www.cnblogs.com/gxh973121/p/3868037.html
Copyright © 2011-2022 走看看