zoukankan      html  css  js  c++  java
  • [java] 获取pdf/word文档文本内容

    package com;

    import java.io.File;
    import java.io.FileInputStream;
    import java.io.FileNotFoundException;
    import java.io.IOException;
    //import java.io.FileInputStream;
    //import java.io.FileNotFoundException;
    //import java.io.IOException;
    //import java.util.HashMap;
    //import java.util.Iterator;
    //import java.util.Map;
    //
    //import org.apache.poi.hwpf.HWPFDocument;
    //import org.apache.poi.hwpf.model.FieldsDocumentPart;
    //import org.apache.poi.hwpf.usermodel.Field;
    //import org.apache.poi.hwpf.usermodel.Fields;
    //import org.apache.poi.hwpf.usermodel.Range;

    import org.apache.pdfbox.pdfparser.PDFParser;
    import org.apache.pdfbox.util.PDFTextStripper;
    import org.apache.poi.POITextExtractor;
    import org.apache.poi.extractor.ExtractorFactory; 

    public class Test {

    public static void main(String[] args) {
       /*
       try {      

        //word格式
        String path="D:\\workspace\\MyPlatFileNew\\web\\content\\kent\\a6\\uploadattach\\iplat4j01361351007003_20130220170327.doc";
        System.out.println("========"+path);
         File inputFile = new File(path);  
        
                 POITextExtractor extractor = ExtractorFactory.createExtractor(inputFile);
                 System.out.println("Document Text: ");  
                 System.out.println("====================");  
                 System.out.println(extractor.getText());  
                 System.out.println("====================");
             }catch (Exception ex) {  
                 ex.printStackTrace();  
             }*/

       //pdf格式
       FileInputStream fis = null;
          String path="D://知识积累//EL.pdf";
       try {
        fis = new FileInputStream(path);
       } catch (FileNotFoundException e) {
        e.printStackTrace();
       }
          PDFParser p = null;
       try {
        p = new PDFParser(fis);
       } catch (IOException e) {
        e.printStackTrace();
       }
          try {
        p.parse();
       } catch (IOException e) {
        e.printStackTrace();
       }  
          PDFTextStripper ts = null;
       try {
        ts = new PDFTextStripper();
       } catch (IOException e1) {
        e1.printStackTrace();
       }  
          String s = null;
       try {
        s = ts.getText(p.getPDDocument());
        System.out.println("----------begin------------");
        System.out.println(s);
        System.out.println("-----------end-----------");
       } catch (IOException e) {
        e.printStackTrace();
       }
       
          try {
        fis.close();
       } catch (IOException e) {
        e.printStackTrace();
       } 
     }

    }

    需要用到的jar包有pdfbox-1.7.1.jar,poi-3.9-20121203.jar,poi-ooxml-3.9-20121203.jar。

  • 相关阅读:
    WeX5 苹果APP打包教程
    开源中国社区
    HBuilder-飞速编码的极客工具,手指爽,眼睛爽下载
    java用double和float进行小数计算精度不准确
    SQL Server 查询表的主键的两种方式
    JS代码压缩格式化在线地址
    解决SQL Server 阻止了对组件 'Ad Hoc Distributed Queries' 的 STATEMENT'OpenRowset/OpenDatasource' 的访问的方法
    SQL跨数据库复制表数据
    ExtJs 扩展类CheckColumn的使用(事件触发)
    DM36x IPNC OSD显示中文 --- 基本数据准备篇
  • 原文地址:https://www.cnblogs.com/kentyouyou/p/2957848.html
Copyright © 2011-2022 走看看