zoukankan      html  css  js  c++  java
  • 免费软件 认出图像文件中文字的利器

    经常用扫描仪的用户可能对OCR并不陌生,OCR即Optical Character Recognition,中文含义就是光学字符识别的意思,就是将图像作一个转换,使图像内的图形继续保存,将文字识别出来,这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件,但遗憾的是,即使是同一个OCR软件,识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号。

        这些商业OCR软件主要是针对扫描仪扫出来的“打印汉字”,而对于屏幕出项的“显示汉字”,如图像中的文字,大多识别率较低,特别是对于一些小字体,识别率几乎为零。而Mini OCR主要用来识别图像文件中出项的汉字显示。再加上体积较小,因此Mini之称并不为过。另外最重要的,Mini OCR还是一款免费软件。

        Mini OCR是一款免费的绿色软件,用户只要将下载的压缩包解压缩到任何一个目录下,然后运行Miniocr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤,就可以很容易将图像文件的文字给抠出来。


    免费软件 认出图像文件中文字的利器

        一 打开图像文件

        单击主窗口左侧的“打开图像文件”按钮,在打出的窗口选择要进行OCR 图像文件,Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的,可以通过ACDSEE等其他软件进行格式转换。

        二 段落切分

        在对图像中的文字进行识别之前,需要先对页面进行段落切分,即把页面分割成一个一个的文字段落,擦除图像区域,保留文字块,按照切分后段落出现的从上到下的顺序进行文字识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。如果直接跳过这一步直接进入文字识别,则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。

        三 文字识别

        点击“文字识别”按钮,即开始对图像中文字进行识别,识别后的字符会出现在右下角的编辑框中,Mini OCR可以识别图像中的出项的汉字、英文、数字和标点,英汉混排时,汉语优先。Mini OCR还针对图文混排、宋体的小字号、汉字粘连的切分,进行过优化设计,识别效果更佳。

        四 保存结果

        最后一步当然就是保存结果了,识别后的文字出现在右下角的编辑框里,你可以直接在这个编辑框中进行复制剪切和粘贴操作,当然也可以通过“保存结果”按钮将其保存为TXT文件,默认保存的文件名和先前打开的图像文件名相同。

        笔者对此做了多次实验,无论是网页上文字较多的图片还是屏幕上显示的汉字,Mini OCR的识别率还是相当令人满意的,识别率基本上可以达到90%左右。不过,Mini OCR对英文的识别还是有一些问题。如果用户是用来识别扫描出来的打印字体,还是推荐选用知名的商业OCR软件,但Mini OCR可以辅助使用。

        软件名称:Mini OCR汉字显示字体识别软件V1.0

  • 相关阅读:
    TOJ 假题之 Cow Brainiacs
    TOJ 2596: Music Notes
    Wannafly模拟赛2
    2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛
    2017 ACM/ICPC Asia Regional Shenyang Online
    北京师范大学第十五届ACM决赛-重现赛
    Codeforces Round #433 (Div. 2, based on Olympiad of Metropolises)
    Codeforces Round #432 (Div. 2, based on IndiaHacks Final Round 2017)
    LibreOJ β Round #4
    长沙理工大学第十二届ACM大赛-重现赛
  • 原文地址:https://www.cnblogs.com/zhwl/p/2380748.html
Copyright © 2011-2022 走看看