zoukankan      html  css  js  c++  java
  • 把图片中的文字转成文本

    什么OCR?

    OCR(Optical Character Recognition,光学字符识别)是指对文本资料的图像文件进行分析处理,获取文字及版面信息的过程。上面的解释也许听起来还是让人有点不太明白,简单说来就是识别图片中文本,将其变成普通文本的这样一个东西。


    如何使用Office 2010的OCR功能?

    尽管在安装过程中,你可能已经发现Office 2010确实有OCR功能,但是使用方式却和以前office 2003及2007却不大一样。

    Office 2003的OCR功能是放在Microsoft Office Document Imaging组件中,Office 2007也类似,不过Office 2007在OneNote也是能使用OCR功能的,Office 2010是没有Microsoft Office Document Imaging这个组件的,必须在OneNote中才能使用OCR功能。

    使用方法很简单,就是使用在图片上右键,选择相应的选项(复制××××的文本)然后粘帖即可。

    OneNote中的OCR比Microsoft Office Document Imaging好的一个原因是因为OneNote识别的文本能保留原格式。对于喜欢使用Word编辑的用户来说,OneNote有发送至Word的选项,把它放在快速访问工具栏里还是十分方便的。


    使用OCR可能会出现的一些问题

    1、打印选项中的“发送至 OneNote 2010”无效。

    在安装OneNote,在打印机会多出一个“发送至 OneNote 2010”的选项。使用打印来发送内容到OneNote非常方便。但是不知道为什么,我使用OneNote虽然点击了发送至OneNote,但是OneNote却不能正常打开,无法使用这个功能。

    但是Office 2010 Beta这个功能确实正常的,实验了一下,发现将Beta版机子上的C:\WINDOWS\system32\spool\drivers\w32x86 \3文件夹里的SendToOneNoteFilter.dll替换有问题机子里的相同文件,问题解决。

    2、Office 2010安装Microsoft Office Document Imaging可能出现的问题

    尽管Office 2010的OCR功能比旧版的更好,但是还是有人希望在安装Office 2010的机子上安装Microsoft Office Document Imaging,其实这也是可以的,不过安装后却可能发生很多问题。

    使用Office 2003来安装Microsoft Office Document Imaging,安装时不但要选择Office工具的Microsoft Office Document Imaging,还需要选择Office共享功能中校对工具里的中英文光学字符识别模块。

    如果没有选择校对工具里面的光学字符识别模块,在点击OCR识别,会弹出无法执行OCR错误提示:

    使用Office 2007安装Microsoft Office Document Imaging比较简单,在Office工具中选择Microsoft Office Document Imaging即可(默认不安装),但是使用Office 2007安装的Microsoft Office Document Imaging在使用OCR识别经常会弹出错误:

    解决方法是使用Office 2003的C:\Program Files\Common Files\Microsoft Shared\MODI\11.0的TWRECC.DLL替换Office 2007的C:\Program Files\Common Files\Microsoft Shared\MODI\12.0的TWRECC.DLL即可。

    当然使用Office 2003或2007安装Microsoft Office Document Imaging还会有Office正版验证的问题(需要一个能通过正版验证的序列号)和它们与Office 2010的共存问题,比如Office 2003有时会影响到Office 2010的卸载程序:

    貌似网上有解决Office 2003和Office 2010的共存问题,不过我没有实验,我的做法是卸载Office 2003。


    总结

    在安装Office 2010后再用Office 2003或2007安装Microsoft Office Document Imaging来玩OCR并不是明智的做法,我想还是适应一下在OneNote下使用OCR功能吧,况且OneNote 2010下的OCR功能确实比Microsoft Office Document Imaging要好,尤其是能按原格式输出这一点。

  • 相关阅读:
    福州3中集训day5
    福州三中集训day4
    福州三中集训day3
    福州三中基训day2
    福州三中集训day1
    Python3 字符串
    Python3 数字
    Python3 运算符
    Python3 基础数据类型
    Codeforces Round 253 (Div. 2)
  • 原文地址:https://www.cnblogs.com/jamin/p/2794885.html
Copyright © 2011-2022 走看看