zoukankan      html  css  js  c++  java
  • [Java] 利用xpdf库获取pdf文件的指定范围文本内容

     

    [Java] 利用xpdf库获取pdf文件的指定范围文本内容

    编写者

    日期

    关键词

    郑昀@ultrapower

    2005-8-2

    Java PDF xpdf

     

    概述

    读取PDF文件的某一部分文本内容,可以使用开源项目xpdf

    Java中调用xpdf,我们参照了《Java抽取WordPDF的四种武器》文章最后提到的办法。

    总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

    系统基础环境要求

    下面是对运行xpdf软件服务的计算机的要求:

    l         您可以从以下位置下载并安装 xpdf分发版本-补丁3Win32版本:
    ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

    l         还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
    ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

     

    (更多下载信息参考http://www.foolabs.com/xpdf/download.html)

     

    调用示范

    下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到Cxpdf目录下,我们将以c:\xpdf作为xpdf的工作路径。

    然后,请将xpdf-chinese-simplified.tar\xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

    为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

    注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入-cfg xpdfrc2来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc

      

    修改配置文件一:

    并在这个xpdfrc文件最后加上这么一段话:

    多加这么一段配置:

    #----- begin Chinese Simplified support package (2004-jul-27)

    cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

    unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

    unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

    unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap

    cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap

    toUnicodeDir                 C:/xpdf/chinese-simplified/CMap

    #displayCIDFontTT   Adobe-GB1  /usr/..../gkai00mp.ttf

    #----- end Chinese Simplified support package

    注意Map文件的路径一定要正确。

     

    修改配置文件二:

    另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:

    多加这么一段配置:

    # If set to "yes", text extraction will  insert  page

    # breaks  (form feed characters) between pages.  This

    # defaults to "yes".

    textPageBreaks      no

     

    设置textPageBreaksno的意思是:在PDF文档的两页之间不加入分页符号。

    之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。

     

    修改配置文件三:

    配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncodingUTF-8,而不是GB2312

    调用示范

    下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc

    代码示范:

    String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";

                   String filename="c:\\test.pdf";

                    

                     int Begin = 100;

                     int End = 300;

                    

                     String strResponse = "";

                    

                   String[] cmd = new String[]

                        { PATH_TO_XPDF,

                                "-cfg", "xpdfrc", "-q", filename, "-"};

                   Process p = Runtime.getRuntime().exec(cmd);

                   BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

                   InputStreamReader reader = new InputStreamReader(bis, "UTF-8");

     

                    

                     if(Begin > 0)

                     {

                          // 跳过Begin个字符

                          reader.skip(Begin);

                     }

                      

                    

                     // 本次要读取的字符数

                     int nLengthRead = End - Begin;

                     if(nLengthRead > 0)

                     {

                          // 准备好缓冲区

                         char [] buf = new char[nLengthRead];

                          // 输出到缓冲区

                         int nLengthWriteToBuffer = reader.read(buf);

                         reader.close();

                         

                          // nLengthWriteToBuffer就是当前读取到缓冲区的字符数

                          if(nLengthWriteToBuffer > 0)

                          {

                                // 只有nLengthWriteToBuffer大于0,才说明文档有内容

                                strResponse = new String(buf);

                          }

                          else

                          {

                                // 否则可能是到了文档结尾

                                strResponse = "PDF_EOF_OF_DOC";

                          }

                     }

                    

                   System.out.println("\t\r\n" + strResponse);

     

    编写者

    日期

    关键词

    郑昀@ultrapower

    2005-8-2

    Java PDF xpdf

     

  • 相关阅读:
    页面表单里的图片上传ENCTYPE="multipart/form-data"
    OSGI
    httpClient使用中报错org.apache.commons.httpclient.HttpMethodBase
    DNSPod--国内最早提供免费智能DNS产品的网站,致力于为各类网站提供高质量的多线智能DNS免费解析
    spring security 一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架
    Unable to parse request org.apache.commons.fileupload.FileUploadBase$IOFileUploadException: Processing of multipart/form-data request failed. null
    swfupload 上传报 security error # 2049 (security) 安全错误问题
    如何强制指定输入的参数必须为数字
    弹性盒子模型子元素垂直和水平居中
    Git常见错误处理
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/206685.html
Copyright © 2011-2022 走看看