zoukankan      html  css  js  c++  java
  • PDFBox –如何读取PDF的内容

    pom.xml

    <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.6</version>
    </dependency>
    

    2.读取pdf的文件内容

    import org.apache.pdfbox.pdmodel.PDDocument;
    import org.apache.pdfbox.text.PDFTextStripper;
    import org.apache.pdfbox.text.PDFTextStripperByArea;
    
    import java.io.File;
    import java.io.IOException;
    
    public class ReadPdf {
    
        public static void main(String[] args) throws IOException {
    
            try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) {
    
                document.getClass();
    
                if (!document.isEncrypted()) {
    
                    PDFTextStripperByArea stripper = new PDFTextStripperByArea();
                    stripper.setSortByPosition(true);
    
                    PDFTextStripper tStripper = new PDFTextStripper();
    
                    String pdfFileInText = tStripper.getText(document);
                    //System.out.println("Text:" + st);
    
    				// split by whitespace
                    String lines[] = pdfFileInText.split("\r?\n");
                    for (String line : lines) {
                        System.out.println(line);
                    }
    
                }
    
            }
    
        }
    }
    
  • 相关阅读:
    Sky
    MyEclipse 10中文汉化教程
    算法
    查找众数
    格雷码算法
    commons-email
    java
    IO端寻址
    存储器
    汇编顺序程序设计
  • 原文地址:https://www.cnblogs.com/whsongblog/p/7906869.html
Copyright © 2011-2022 走看看