zoukankan      html  css  js  c++  java
  • Tesseract-OCR的使用记录

    参考:

    http://www.cnblogs.com/cnlian/p/5765871.html

    http://www.cnblogs.com/wzben/p/5930538.html

    1、下载 Tesseract-OCR 及对应版本的 chi_sim.traindata 字库。

      一定要对应否则会报错。错误信息为:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53"

     

    2、打开cmd,打开图片所在文件夹,输入命令:tesseract in.png out -l chi_sim在图片所在文件夹下生成名字为out的txt文件。

      命令格式:  tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]  

      imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng。

    字库训练

    之前是打算字库训练,后来发现下载的字库还是比较完善的,就简单记录下。

    下面是训练所有的cmd命令。chi.newchi.exp0.tif为自己转换的图片名字

     

    tesseract chi.newchi.exp0.tif chi.newchi.exp0 -l chi_sim batch.nochop makebox

    tesseract  chi.newchi.exp0.png chi.newchi.exp0  nobatch box.train

    unicharset_extractor chi.newchi.exp0.box

    shapeclustering -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr

    mftraining -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr

    cntraining chi.newchi.exp0.tr   

    rename normproto newchi.normproto  
    rename inttemp newchi.inttemp      
    rename pffmtable newchi.pffmtable  
    rename unicharset newchi.unicharset
    rename shapetable newchi.shapetable

    combine_tessdata newchi.

    tesseract chi.newchi.exp0.png chi.newchi.exp0 -l newchi

  • 相关阅读:
    Lambda表达式
    委托
    vue中简单的修改密码校验的代码
    elementUI-select 远程搜索
    对象获取所有的key以及value分别组成数组
    作业
    英文词频统计预备,组合数据类型练习
    凯撒密码、GDP格式化输出、99乘法表
    字符串基本操作
    条件、循环、函数定义 练习
  • 原文地址:https://www.cnblogs.com/congyinew/p/7694204.html
Copyright © 2011-2022 走看看