zoukankan      html  css  js  c++  java
  • PDF补丁丁(0.3.2.13测试版)新增光学字符识别(OCR)功能,将图片 PDF 文档的目录转换为书签

    测试版优化了识别图片 PDF 文字的功能,并针对目录页作了优化。

    识别目录时,将结果文件保存为文本文件,就可以用书签编辑器打开编辑,并导入 PDF 文档。

    此功能减少了为图片 PDF 文档制作书签的人工输入和编辑工作量。

    操作方式

    1. 选定原始文件,并指定输出结果保存的文件。
    2. 在选项的“识别页码范围”文本框中填入需要做字符识别的页码(如不填,则识别所有页面,请填入 PDF 文档目录页的页码范围,如12-14,表示目录页为12到14页共3页)。
    3. 根据原文档的排版特征选择适当的选项。
    4. 点击“识别图像文本”按钮开始识别。
    5. 识别后的文本结果将输出到日志界面(结果文件默认保存格式为文本格式)。
    6. 编辑输出的文本文件,修正错误识别的字符。
    7. 用书签编辑器打开该文本文件。

    界面截图

    被识别的目录页如下(原图为1666*2400,已缩减大小)。

    识别选项为:排版方向为“横向”、“识别目录中的点号”、“压缩连续出现的空格”,不选择“识别分栏排版”,其它为默认设置。

    下图是识别上述 PDF 文档目录页后,在书签编辑器打开识别结果文件的截图。

    新版本的 PDF 书签编辑器增加了“补丁”按钮,无需再切换到“处理/制作 PDF 文件”就能将书签补丁到 PDF 文件。

    下载程序

    程序的下载网址请见博客首页。

  • 相关阅读:
    Android ViewPager实现选项卡切换
    Android Fragment是什么
    Android 点击文字实现跳转
    海底捞的十五天,让我重当程序员
    saltstack 实现haproxy+keepalived
    saltstack 实现系统初始化
    saltstack 实现redis主从
    python类基础
    Mysql 数据库备份工具 xtrabackup
    Python函数式编程
  • 原文地址:https://www.cnblogs.com/pdfpatcher/p/2026867.html
Copyright © 2011-2022 走看看