免费软件认出图像文件中文字的利器

zoukankan html css js c++ java

免费软件认出图像文件中文字的利器

经常用扫描仪的用户可能对OCR并不陌生，OCR即Optical Character Recognition，中文含义就是光学字符识别的意思，就是将图像作一个转换，使图像内的图形继续保存，将文字识别出来，这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件，但遗憾的是，即使是同一个OCR软件，识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号。

    这些商业OCR软件主要是针对扫描仪扫出来的“打印汉字”，而对于屏幕出项的“显示汉字”，如图像中的文字，大多识别率较低，特别是对于一些小字体，识别率几乎为零。而Mini OCR主要用来识别图像文件中出项的汉字显示。再加上体积较小，因此Mini之称并不为过。另外最重要的，Mini OCR还是一款免费软件。

    Mini OCR是一款免费的绿色软件，用户只要将下载的压缩包解压缩到任何一个目录下，然后运行Miniocr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤，就可以很容易将图像文件的文字给抠出来。

    一打开图像文件

    单击主窗口左侧的“打开图像文件”按钮，在打出的窗口选择要进行OCR 图像文件，Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的，可以通过ACDSEE等其他软件进行格式转换。

    二段落切分

    在对图像中的文字进行识别之前，需要先对页面进行段落切分，即把页面分割成一个一个的文字段落，擦除图像区域，保留文字块，按照切分后段落出现的从上到下的顺序进行文字识别，以期处理图文混排的页面时，能达到更好的识别效果，并排除图形的干扰，加快文字的识别速度。如果直接跳过这一步直接进入文字识别，则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。

    三文字识别

    点击“文字识别”按钮，即开始对图像中文字进行识别，识别后的字符会出现在右下角的编辑框中，Mini OCR可以识别图像中的出项的汉字、英文、数字和标点，英汉混排时，汉语优先。Mini OCR还针对图文混排、宋体的小字号、汉字粘连的切分，进行过优化设计，识别效果更佳。

    四保存结果

    最后一步当然就是保存结果了，识别后的文字出现在右下角的编辑框里，你可以直接在这个编辑框中进行复制剪切和粘贴操作，当然也可以通过“保存结果”按钮将其保存为TXT文件，默认保存的文件名和先前打开的图像文件名相同。

    笔者对此做了多次实验，无论是网页上文字较多的图片还是屏幕上显示的汉字，Mini OCR的识别率还是相当令人满意的，识别率基本上可以达到90％左右。不过，Mini OCR对英文的识别还是有一些问题。如果用户是用来识别扫描出来的打印字体，还是推荐选用知名的商业OCR软件，但Mini OCR可以辅助使用。

    软件名称：Mini OCR汉字显示字体识别软件V1.0

查看全文

相关阅读:
第12课
 第11课
 第6课
 第5课
 ubuntu apache 通过端口新建多个站点
 phpstudy所需运行库
 ubuntu 修改和配置ip
Linux Cp命令
 Ubuntu各个版本的镜像下载地址
 ubuntu 虚拟机添加多个站点

原文地址：https://www.cnblogs.com/zhwl/p/2380748.html

免费软件 认出图像文件中文字的利器

免费软件认出图像文件中文字的利器