zoukankan      html  css  js  c++  java
  • Tesseract初探

    一、框架介绍 

    Tesseract 是一款图片识别工具,可以抓取图片中的文字,可以支持多种语言(默认是英语),需要下载开源文件可以在github上下载,如果知识应用不想太多深究直接在google code里边搜索下载即可。

    二、Tesseract内容  

    Doc:说明文档  

    Tessdata:存放各种文字库(chi_sim.traineddata:中文 等)  

    Tessseract.exe 即可以启动文件开始调用Tesseract 可以通过cmd方式调用,先cd到对应的目录,然后 输入 tesseract.exe 图片名 导出文件名(如:tesseract.exe 1.jpg 1) 就可以把和tesseract同目录的 1.jpg文件识别结果存放在 1.txt文件中。当然如果需要支持中文,需要在tessdata中添加 chi_sim.traineddata 文件,

    然后 调用例子:tesseract.exe 1.jpg 1 -L chi_sim 制定是根据什么文字库进行识别。 当然图片地址可以引用全路径、输出结果也可以全路径如果只是想把Tesseract做为一个工具做文字解析,并不追求太高成功率使用者,这样即可满足需要了,直接通过CMD调用exe进行执行。有需要玩的小伙伴可以直接下载附件 Tesseract_简单使用.rar文件

    三、.Net项目高级使用

    如果.Net项目需要使用 DLL方式引用进行研发,可以下载Tesseract_DLL引用包。

    X86和X64是针对Tesseract关联引用DLL,根据程序所在系统位数进行自适应配置。

    liblept168.dll 这个文件会在windows server 2003中发布IIS情况下无法加载错误信息: Failed to find library "liblept168.dll" for platform x86. 如果发布在更高版本系统中即可正常使用Tesseract.DLL即是要添加到对应的项目中的。以下是测试tesseract.dll 代码:  

     1 using (var engine = new TesseractEngine(Server.MapPath(@"~/tessdata"), "eng", EngineMode.Default))
     2                 {
     3                     // have to load Pix via a bitmap since Pix doesn't support loading a stream.
     4                     using (var image = new System.Drawing.Bitmap(imageFile.PostedFile.InputStream))
     5                     {
     6                         using (var pix = PixConverter.ToPix(image))
     7                         {
     8                             using (var page = engine.Process(pix))
     9                             {
    10                                 meanConfidenceLabel.InnerText = String.Format("{0:P}", page.GetMeanConfidence());
    11                                 resultText.InnerText = page.GetText();
    12                             }
    13                         }
    14                     }
    15                 }
    Tesseract调用

    TesseractEngine:构造函数参数注意事项=》第一个是字库路径必须使用tessdata结尾,第二个如果需要使用chi_sim即中文

     

  • 相关阅读:
    Note/Solution 转置原理 & 多点求值
    Note/Solution 「洛谷 P5158」「模板」多项式快速插值
    Solution 「CTS 2019」「洛谷 P5404」氪金手游
    Solution 「CEOI 2017」「洛谷 P4654」Mousetrap
    Solution Set Border Theory
    Solution Set Stirling 数相关杂题
    Solution 「CEOI 2006」「洛谷 P5974」ANTENNA
    Solution 「ZJOI 2013」「洛谷 P3337」防守战线
    Solution 「CF 923E」Perpetual Subtraction
    KVM虚拟化
  • 原文地址:https://www.cnblogs.com/CleanBoy/p/4617438.html
Copyright © 2011-2022 走看看