读取pdf中的内容 - 走看看

zoukankan html css js c++ java

读取pdf中的内容

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

       public static void main(String[] args) {

           //创建PdfDocument实例
           PdfDocument doc= new PdfDocument();

           //加载PDF文件
           doc.loadFromFile("test.pdf");

           StringBuilder sb= new StringBuilder();

           PdfPageBase page;

           //遍历PDF页面，获取文本
           for(int i=0;i<doc.getPages().getCount();i++){
               page=doc.getPages().get(i);
               sb.append(page.extractText(true));
           }

           FileWriter writer;

           try {
              //将文本写入文本文件
               writer = new FileWriter("ExtractText.txt");
               writer.write(sb.toString());
               writer.flush();
           } catch (IOException e) {
              e.printStackTrace();
}

doc.close();
}

查看全文

相关阅读:
类的创建
 线性规划
 break、continue、pass介绍
 array numpy 模块
 hive字符串函数
 进化的Spark, 从DataFrame说起
 hive sql split 分隔符
 Spark On YARN内存分配
 浅谈Spark应用程序的性能调优
 Spark-Mllib(二)基本统计

原文地址：https://www.cnblogs.com/xianz666/p/12017366.html

最新文章
P1020 导弹拦截
 P1007 独木桥
 x,y
map
缺省源
 P2031 脑力达人之分割字串
 对背包的新理解
 方案数背包
 多重背包
 关于初始化

Copyright © 2011-2022 走看看