zoukankan      html  css  js  c++  java
  • tesseract-orc 合并识别结果

    在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充

    本文演示如何将多个修正过的box文件合并成一个识别库。

    首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典

    假设已存在如下样品图片和修正过的box文件:

    image.font.1.tif image.font.1.box

    image.font.2.tif image.font.2.box

    image.font.3.fit image.font.3.box

    1、先生成相对应的 .tr 文件

    tesseract image.font.1.tif image.font.1 nobatch box.train

    tesseract image.font.2.tif image.font.2 nobatch box.train

    tesseract image.font.3.tif image.font.3 nobatch box.train

    2、提取字符

    unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

    3、生成字体特征文件

    新建 font_properties 文件(注意没有后缀名把所有box文件对应的字体特征都加进去

    font 0 0 0 0 0

    4、执行如下命令

    mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

    5、聚集所有.tr 文件

    cntraining image.font.1.tr image.font.2.tr image.font.3.tr

    6、重命名文件

    将如下文件重命名,在前面增加字体的名称,这里我使用【CK

    unicharset

    inttemp

    normproto

    pfftable

    shapetable ---- 很多教程都漏了这个文件,不改这个文件创建识别库的时候会报错。

    重命名后各文件名如下

    CK.unicharset

    CK.inttemp

    CK.normproto

    CK.pfftable

    CK.shapetable ---- 很多教程都漏了这个文件,不改这个文件创建识别库的时候会报错。

    7、合并所有文件 生成一个大的字库文件 

    combine_tessdata CK.

    打完收工

  • 相关阅读:
    洛谷P5245 【模板】多项式快速幂
    洛谷P5205 【模板】多项式开根(FFT)
    laravel 数据库连接Mysql
    laravel V层引入css 和js方法
    laravel V层
    小程序地区时间自定义选择器 picker
    点击a标签 跳到当前页面指定div
    图片上下居中
    小程序消除图片下边距的三个方法
    百度地图定位
  • 原文地址:https://www.cnblogs.com/tdhao/p/5451813.html
Copyright © 2011-2022 走看看