zoukankan      html  css  js  c++  java
  • Java 读取PDF中的文本和图片

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

     

    使用工具:Free Spire.PDF for Java(免费版)

    Jar文件获取导入:

    方法1通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:

    方法2 可通过maven仓库安装导入。

    Java代码示例

    import com.spire.pdf.*;
    
    import javax.imageio.ImageIO;
    import java.awt.image.BufferedImage;
    import java.io.File;
    import java.io.FileWriter;
    import java.io.IOException;
    
    public class ExtractText {
        public static void main(String[]args) throws Exception {
            //加载测试文档
            PdfDocument pdf = new PdfDocument("sample.pdf");
    
            //实例化StringBuilder类
            StringBuilder sb = new StringBuilder();
            //定义一个int型变量
            int index = 0;
    
            //遍历PDF文档中每页
            PdfPageBase page;
            for (int i= 0; i<pdf.getPages().getCount();i++) {
                page = pdf.getPages().get(i);
                //调用extractText()方法提取文本
                sb.append(page.extractText(true));
                FileWriter writer;
                try {
                    //将StringBuilder对象中的文本写入到txt
                    writer = new FileWriter("ExtractText.txt");
                    writer.write(sb.toString());
                    writer.flush();
                } catch (IOException e) {
                    e.printStackTrace();
                }
    
                //调用extractImages方法获取图片
                for (BufferedImage image : page.extractImages()) {
                        //指定输出图片名,指定图片格式
                        File output = new File(String.format("Image_%d.png", index++));
                        ImageIO.write(image, "PNG", output);
                }
            }
            pdf.close();
        }
    }

    文本和图片读取效果:

    (本文完)

  • 相关阅读:
    二叉树
    树的存储表示
    Jarvis OJ | WEB
    xctf | pwn进阶
    《C++Primer Plus》 | 处理数据
    xctf---stack2 | gdb&IDA 调试
    IDA | Windows主机与Ubuntu 16.04远程调试
    ROP | 中级
    IDA | 窗口
    epub reading
  • 原文地址:https://www.cnblogs.com/Yesi/p/11206330.html
Copyright © 2011-2022 走看看