zoukankan      html  css  js  c++  java
  • pdfBox 解析 pdf文件

    Spting boot 项目

    1.添加依赖

     <dependency>
           <groupId>org.apache.pdfbox</groupId>
           <artifactId>pdfbox</artifactId>
           <version>2.0.16</version>
     </dependency>

    2.PDFTest.java

    package com.nenu.pdf;
    
    import org.apache.pdfbox.io.RandomAccessFile;
    import org.apache.pdfbox.pdfparser.PDFParser;
    import org.apache.pdfbox.pdmodel.PDDocument;
    import org.apache.pdfbox.text.PDFTextStripper;
    
    
    import java.io.File;
    import java.io.FileNotFoundException;
    import java.io.IOException;
    
    public class PDFTest {
        public static String getTextFromPDF(String pdfFilePath)
        {
            String result = null;
            PDDocument document = null;
            File file = new File(pdfFilePath);
            try {
                PDFParser parser = new PDFParser(new RandomAccessFile(file,"rw"));
                parser.parse();
                document = parser.getPDDocument();
                PDFTextStripper stripper = new PDFTextStripper();
                result = stripper.getText(document);
            } catch (FileNotFoundException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } finally {
                if (document != null) {
                    try {
                        document.close();
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                    }
                }
            }
            return result;
        }
        public  static void main(String[] args)
        {
            String str=PDFTest.getTextFromPDF("D:\pdf.pdf");
            System.out.println(str);
    
        }
    
    }
    

      

  • 相关阅读:
    全站生成静态文件的通用方法
    Web.config配置文件详解(新手必看)
    iis7/7.5设置上传文件最大大小
    C# 中的常用正则表达式总结
    60款很酷的 jQuery 幻灯片演示和下载
    DataReader记录生成多列的表格
    正则表达式
    博客转移
    ASP.Net学习之常用SQL存储过程(1)
    遍历Request的信息
  • 原文地址:https://www.cnblogs.com/lick468/p/11474407.html
Copyright © 2011-2022 走看看