zoukankan      html  css  js  c++  java
  • java读取pdf文档

    import java.io.*;
    import org.pdfbox.pdmodel.PDDocument;
    import org.pdfbox.pdfparser.PDFParser;
    import org.pdfbox.util.PDFTextStripper;


    public class PDFReader {
     
     public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
     // 获取PDF内纯文本信息
     public String GetTextFromPdf(String filename) throws Exception
     {
      FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
      PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
      parser.parse();                                              // 执行PDF解析过程
      
      PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
      PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
      String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
      
      System.out.println("文件长度 : "+ contenttxt.length() +" ");
      return contenttxt;http://www.huiyi8.com/jiangbei/sheji/
      
     }
     
     public static void main(String args[])
     {奖杯设计图
      PDFReader pdfbox=new PDFReader();                        // 生成PDFBoxHello对象
      try{
                                                                // 获取文档纯文本内容
       String doctext = pdfbox.GetTextFromPdf(file_path);
       System.out.println("文件内容 : ");   
       System.out.println(doctext);
       System.out.println("文件结束 . ");   
      } catch(Exception e){
       e.printStackTrace();
      }
     }
    }

    1. [图片] pdf.png    

  • 相关阅读:
    转:yum和aptget用法及区别
    APT upgrade 和 distupgrade 的差別
    flickr api 入门教程
    查看FileZila 快速连接密码
    Freemium模式
    asp.net 开发环境搭建
    flickr api authentication
    转:虚拟机VirtualBox中Ubuntu无法全屏解决方法
    转:网页设计中的默认字体样式详解
    Attempted to read or write protected memory. This is often an indication that other memory is corrupt.
  • 原文地址:https://www.cnblogs.com/xkzy/p/4015814.html
Copyright © 2011-2022 走看看