zoukankan      html  css  js  c++  java
  • Tesseract5.0训练字库,提高OCR特殊场景识别率,合并字库(二)

    一、准备工作

      需要的文件 tif文件和box文件。

      如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif box 文件,如下:

      

    二、生成对应的 .tr 训练文件

      根据不同的tif文件依次使用下面这个命令

      tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

      完成后效果是这样的,每个组合都会有一个对应的 .tr 文件

      

    三、从所有文件中提取字符

      unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

      执行完这个命令会在当前目录生成一个unicharset文件

      

    四、生成字体特征文件

      这个是设置字体格式的,会生成一个无后缀名的font+properties文件

      echo word 0 0 0 0 0 > font_properties

    五、生成聚字符特征文件

      会生成 inttemp、pffmtable、shapetable 三个文件

      mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

    六、聚集所有 .tr 文件

      执行下面命令,会生成 normproto 文件。

      cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

    七、重命名文件,把unicharset,inttemp,normproto,pfftable,shapetable  这五个文件加上前缀word.

      rename unicharset word.unicharset

      剩下四个同上

    八、合并所有文件,生成一个大的 .traineddata 字库文件

      combine_tessdata word.

      

  • 相关阅读:
    模式应用:自定义匹配
    WPF架构学习总结
    脑子是用来想事的,不是记事的
    参加峰会“金点子”的材料
    我所想的GIX4的权限
    Process, Thread, STA, MTA, COM object
    JAVA 游戏分享 “是男人就下100层”
    关于静态方法和实例方法的一些误区。
    软区域
    Dispose, Finalization, and Resource Management
  • 原文地址:https://www.cnblogs.com/pyweb/p/11527465.html
Copyright © 2011-2022 走看看