zoukankan      html  css  js  c++  java
  • java 抽取 word,pdf 的四种武器

    转自:https://www.ibm.com/developerworks/cn/java/l-java-tips/     感谢作者发布的文章

     

    用 jacob

    其实 jacob 是一个 bridage,连接 java 和 com 或者 win32 函数的一个中间件,jacob 并不能直接抽取 word,excel 等文件,需要自己写 dll 哦,不过已经有为你写好的了,就是 jacob 的作者一并提供了。

    jacob jar 与 dll 文件下载: http://www.matrix.org.cn/down_view.asp?id=13

    下载了 jacob 并放到指定的路径之后 (dll 放到 path,jar 文件放到 classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:

    import java.io.File;
     import com.jacob.com.*;
     import com.jacob.activeX.*;
     /**
     * Title: pdf extraction
     * Description: email:chris@matrix.org.cn
     * Copyright: Matrix Copyright (c) 2003
     * Company: Matrix.org.cn
     * @author chris
     * @version 1.0,who use this example pls remain the declare
     */
     public class FileExtracter{
     public static void main(String[] args) {
      ActiveXComponent component = new ActiveXComponent("Word.Application");
      String inFile = "c:\test.doc";
     String tpFile = "c:\temp.htm";
      String otFile = "c:\temp.xml";
      boolean flag = false;
      try {
       component.setProperty("Visible", new Variant(false));
       Object wordacc = component.getProperty("document .").toDispatch();
       Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method,
           new Object[]{inFile,new Variant(false), new Variant(true)},
           new int[1] ).toDispatch();
       Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method,
           new Object[]{tpFile,new Variant(8)}, new int[1]);
       Variant f = new Variant(false);
       Dispatch.call(wordfile, "Close", f);
       flag = true;
      } catch (Exception e) {
       e.printStackTrace();
      } finally {
       component.invoke("Quit", new Variant[] {});
      }
     }
    }

    用 apache 的 poi 来抽取 word,excel。

    poi 是 apache 的一个项目,不过就算用 poi 你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:

    下载经过封装后的 poi 包: http://www.matrix.org.cn/down_view.asp?id=14

    下载之后,放到你的 classpath 就可以了,下面是如何使用它的一个例子:

    import java.io.*;
    import  org.textmining.text.extraction.WordExtractor;
    /**
    * <p>Title: word extraction</p>
    * <p>Description: email:chris@matrix.org.cn</p>
    * <p>Copyright: Matrix Copyright (c) 2003</p>
    * <p>Company: Matrix.org.cn</p>
    * @author chris
    * @version 1.0,who use this example pls remain the declare 
    */
    public class PdfExtractor {
     public PdfExtractor() {
     }
     public static void main(String args[]) throws Exception
     {
     FileInputStream in = new FileInputStream ("c:\a.doc");
     WordExtractor extractor = new WordExtractor();
     String str = extractor.extractText(in);
     System.out.println("the result length is"+str.length()); 
      System.out.println("the result is"+str);
    }
    }
    

      

    pdfbox- 用来抽取 pdf 文件

    但是 pdfbox 对中文支持还不好,先下载 pdfbox: http://www.matrix.org.cn/down_view.asp?id=12

    下面是一个如何使用 pdfbox 抽取 pdf 文件的例子:

    import org.pdfbox.pdmodel.PDdocument .
    import org.pdfbox.pdfparser.PDFParser;
    import java.io.*;
    import org.pdfbox.util.PDFTextStripper;
    import java.util.Date;
    /**
    * <p>Title: pdf extraction</p>
    * <p>Description: email:chris@matrix.org.cn</p>
    * <p>Copyright: Matrix Copyright (c) 2003</p>
    * <p>Company: Matrix.org.cn</p>
    * @author chris
    * @version 1.0,who use this example pls remain the declare
    */
    public class PdfExtracter{
    public PdfExtracter(){
     }
    public String GetTextFromPdf(String filename) throws Exception
     {
     String temp=null;
     PDdocument . nbsppdfdocument . null;
     FileInputStream is=new FileInputStream(filename);
     PDFParser parser = new PDFParser( is );
     parser.parse();
     pdfdocument . nbsp= parser.getPDdocument . );
     ByteArrayOutputStream out = new ByteArrayOutputStream();
     OutputStreamWriter writer = new OutputStreamWriter( out );
     PDFTextStripper stripper = new PDFTextStripper();
     stripper.writeText(pdfdocument . getdocument . ), writer );
     writer.close();
     byte[] contents = out.toByteArray();
     String ts=new String(contents);
     System.out.println("the string length is"+contents.length+"
    "); 
     return ts;
    }
    public static void main(String args[])
    {
    PdfExtracter pf=new PdfExtracter();
    PDdocument . nbsppdfdocument . nbsp= null;
    try{
    String ts=pf.GetTextFromPdf("c:\a.pdf");
    System.out.println(ts);
    }
    catch(Exception e)
     {
     e.printStackTrace();
     }
    }
    }

    抽取支持中文的 pdf 文件-xpdf

    xpdf 是一个开源项目,我们可以调用他的本地方法来实现抽取中文 pdf 文件。

    下载 xpdf 函数包: http://www.matrix.org.cn/down_view.asp?id=15

    同时需要下载支持中文的补丁包: http://www.matrix.org.cn/down_view.asp?id=16

    按照 readme 放好中文的 patch,就可以开始写调用本地方法的 java 程序了

    下面是一个如何调用的例子:

    import java.io.*;
    /**
    * <p>Title: pdf extraction</p>
    * <p>Description: email:chris@matrix.org.cn</p>
    * <p>Copyright: Matrix Copyright (c) 2003</p>
    * <p>Company: Matrix.org.cn</p>
    * @author chris
    * @version 1.0,who use this example pls remain the declare
    */
    public class PdfWin {
     public PdfWin() {
     }
     public static void main(String args[]) throws Exception
     {
       String PATH_TO_XPDF="C:\Program Files\xpdf\pdftotext.exe";
       String filename="c:\a.pdf";
       String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"}; 
       Process p = Runtime.getRuntime().exec(cmd);
       BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
       InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
       StringWriter out = new StringWriter();
       char [] buf = new char[10000];
       int len;
       while((len = reader.read(buf))>= 0) {
       //out.write(buf, 0, len);
       System.out.println("the length is"+len);
       }
       reader.close();
       String ts=new String(buf);
       System.out.println("the str is"+ts);
     }
    }
  • 相关阅读:
    LVS的优点和缺点
    linux系统中如何查看日志 (常用命令)
    linux隐藏病毒处理(top查询us占用70%左右,却没有CPU高使用的进程)
    linux系统批量注释的方法
    linux系统硬件时间命令
    LINUX服务器设置只允许密钥登陆
    linux系统脚本放在后台与前台
    Kworkerd恶意挖矿分析
    HAProxy的优点
    find命令
  • 原文地址:https://www.cnblogs.com/laobiao/p/7003863.html
Copyright © 2011-2022 走看看