zoukankan      html  css  js  c++  java
  • 读取pdf中的内容

    import com.spire.pdf.PdfDocument;
    import com.spire.pdf.PdfPageBase;
    import java.io.*;

    public class Extract_Text {

           public static void main(String[] args) {
                 
               //创建PdfDocument实例
               PdfDocument doc= new PdfDocument();

               //加载PDF文件
               doc.loadFromFile("test.pdf");       

               StringBuilder sb= new StringBuilder();       

               PdfPageBase page;
           
               //遍历PDF页面,获取文本
               for(int i=0;i<doc.getPages().getCount();i++){
                   page=doc.getPages().get(i);
                   sb.append(page.extractText(true));
               }

               FileWriter writer;

               try {
                   //将文本写入文本文件
                   writer = new FileWriter("ExtractText.txt");
                   writer.write(sb.toString());
                   writer.flush();
               } catch (IOException e) {
                  e.printStackTrace();
    }

    doc.close();       
    }

  • 相关阅读:
    类的创建
    线性规划
    break、continue、pass介绍
    array numpy 模块
    hive字符串函数
    进化的Spark, 从DataFrame说起
    hive sql split 分隔符
    Spark On YARN内存分配
    浅谈Spark应用程序的性能调优
    Spark-Mllib(二)基本统计
  • 原文地址:https://www.cnblogs.com/xianz666/p/12017366.html
Copyright © 2011-2022 走看看