zoukankan      html  css  js  c++  java
  • jTessBoxEditor for Tesseract OCR

    jTessBoxEditor下载地址

    http://vietocr.sourceforge.net/training.html

    以下翻译自安装(解压)后的Readme文件 

    jTessBoxEditor

    简介

    jTessBoxEditor是一个Tesseract OCR的Box编辑器,提供Tesseract 2.0x and 3.0x 格式的Box数据编辑功能。可以读取包括multi-page TIFF在内的通用图片格式。

    系统需求

    Java Runtime Environment 6.0 or later.

    说明

    双击JAR文件启动程序,或者通过如下的命令行方式,Windows下有run.bat批处理文件,可以通过修改启动参数,增加分配给java虚拟机的内存

    java -Xms128m -Xmx512m -jar jTessBoxEditor.jar

    需要把TIFF/Box文件作为这个程序的输入。

    格式要求:

    训练用的图片:300DPI, 1 bpp(bit per pixel), 黑白或8位灰度, 无压缩的TIFF格式

    Box文件:UTF-8编码, 通过Tesseract命令行+相应的命令行选项生成(参考 Tesseract Wiki)。

    训练操作可以通过附带的train.ps1 Windows PowerShell脚本自动化。

    注意:Box文件使用的坐标系统把左下作为(0,0),而计算机图形设备上把左上定义为(0,0)。 jTessBoxEditor使用并显示参考图形设备坐标。编辑的Box文件仍然在读写时参考自己的坐标。

    这个软件中包含一个转换功能,会把字符文本字段的数字字符引用(NCR)和转义序列转换为Unicode字符。

    Merge TIFF功能,可以把含有相同的字体的文本多个图像保存到一个单一的多页TIFF文件中,用于后续训练。

    Generate TIFF/Box功能由一个输入的UTF-8文本文件生成供Tesseract训练用的一对TIFF/Box文件。生成的图像是一个二进制或者灰度的无压缩多页300DPI的TIFF图像,依赖抗锯齿模式是否有效(?)。

    为了消除box边界重叠问题,字符追踪或字符间距可以通过Tracking微调器来进行调整。

    注意,某些框的坐标可能会与由TESSERACT自己生成的略有不同(偏差1或2个像素)。但是,所生成的Box文件可以用如WinMerge的支持Unicode的文本比较工具进行比较验证。

    提示:实验表明,Generate TIFF/Box功能使用字体大小24pt或更大生成的图像会有较高的训练质量。

    结合符号或变音符号(如梵文或印度语 ),需要与主、基本字符结合使用,可以由用户指定一个UTF-8的文本文件,例如data目录下的 combiningsymbols.txt文件。此文件可以被Generate TIFF/Box功能读取,这种设置使用户可以为他们的语言脚本灵活定义结合符号/变音符号。

    -- end --


  • 相关阅读:
    【TouchGFX】使用CubeMX创建touchgfx项目 -- 初始篇
    opencv haarcascades 下载
    更换 Anaconda 源(贼快)
    yii2 允许跨域
    sublime text 3 安装 pyv8 失败的解决办法
    win10 anaconda cuda11.1 安装 tensorlfow-gpu 环境
    nginx 403转404
    python requests 全部异常
    win10 anaconda 安装 tensorflow-gpu 及 jupyter notebook
    【PHP】自有图片服务器,图片动态裁剪缩放
  • 原文地址:https://www.cnblogs.com/rakuhin/p/3307342.html
Copyright © 2011-2022 走看看