zoukankan      html  css  js  c++  java
  • 读取pdf中的内容

    import com.spire.pdf.PdfDocument;
    import com.spire.pdf.PdfPageBase;
    import java.io.*;

    public class Extract_Text {

           public static void main(String[] args) {
                 
               //创建PdfDocument实例
               PdfDocument doc= new PdfDocument();

               //加载PDF文件
               doc.loadFromFile("test.pdf");       

               StringBuilder sb= new StringBuilder();       

               PdfPageBase page;
           
               //遍历PDF页面,获取文本
               for(int i=0;i<doc.getPages().getCount();i++){
                   page=doc.getPages().get(i);
                   sb.append(page.extractText(true));
               }

               FileWriter writer;

               try {
                   //将文本写入文本文件
                   writer = new FileWriter("ExtractText.txt");
                   writer.write(sb.toString());
                   writer.flush();
               } catch (IOException e) {
                  e.printStackTrace();
    }

    doc.close();       
    }

  • 相关阅读:
    Linux查看当前系统的发行版信息
    用 CentOS 7 打造合适的科研环境
    消息队列的使用场景
    RabbitMQ几种Exchange 模式
    JMS规范概览
    消息队列的学习
    springMVC参数传递实例
    java8时间处理实例
    windows电脑常用必备软件
    http后台json解析实例
  • 原文地址:https://www.cnblogs.com/xianz666/p/12017366.html
Copyright © 2011-2022 走看看