zoukankan      html  css  js  c++  java
  • Tesseract-OCR 自动生成识别库的批处理

    用Tesseract-OCR做识别库的时候,生成字典非常麻烦,就写了一个批处理,用来生成字典还是蛮方便的,希望大家有用,该批处理已经自动生成font_properties文件,各位无需手动创建

    下载地址:http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exe

    下面简单说下怎么训练

    1、批量下载、并保存需要识别的图片(验证码);

    2、预处理图片(降噪、剪裁、灰度);

    3、使用 jTessBoxEditor 生成 tif 文件(注:jTessBoxEditor是java软件,需要安装java jdk)

    4、复制我这个批处理文件到生成的tif目录下执行

    5、输入tif的完整文件名

    6、输入字典项目名称

    7、是否生成box文件,没有生成的,选择y,已经生成并修正过的就选择n

    8、生成完毕

    下面是批处理的内容,复制下面内容,保存一个.bat文件

    echo off
    cls
    set /p img=请输入图片名:
    set /p pro=请输入项目名:
    
    set /p level=是否生成box?
    if %level% NEQ n goto step2
    if %level% NEQ N goto step2
    
    echo 1、生成%img%的box文件,项目名【%pro%】
    pause
    tesseract.exe %img% %pro% batch.nochop digits makebox
    cls
    echo 生成box文件完成,请使用jTessBoxEditor校正识别信息。
    pause
    
    :step2
    tesseract.exe %img% %pro% nobatch box.train
    unicharset_extractor.exe %pro%.box
    
    echo 生成font_properties文件
    set val=%pro% 1 0 0 1 0 
    echo %val%>font_properties
    
    cntraining.exe %pro%.tr
    
    mftraining.exe -F font_properties -U unicharset %pro%.tr
    
    echo 重命名文件
    rename inttemp %pro%.inttemp
    rename unicharset %pro%.unicharset
    rename normproto %pro%.normproto
    rename pffmtable %pro%.pffmtable
    rename shapetable %pro%.shapetable
    echo 生成字典文件... combine_tessdata %pro%. echo 字典生成完毕,已生成字典:%pro%.traineddata

     注:3.0.2 增加了一个 shapetable  文件,在重命名时这个文件也需要重名命

  • 相关阅读:
    BZOJ 2957: 楼房重建
    那些年犯下的逗比错误
    BZOJ 2165: 大楼
    BZOJ 2115: [Wc2011] Xor
    bzoj 2006 [NOI2010]超级钢琴——ST表+堆
    bzoj 4571 [Scoi2016]美味——主席树
    bzoj 1014 [JSOI2008]火星人prefix——splay+哈希
    bzoj 2962 序列操作——线段树(卷积?)
    CF 809D Hitchhiking in the Baltic States——splay+dp
    bzoj 3489 A simple rmq problem——主席树套线段树
  • 原文地址:https://www.cnblogs.com/tdhao/p/3174735.html
Copyright © 2011-2022 走看看