zoukankan      html  css  js  c++  java
  • java读取pdf文档

    import java.io.*;
    import org.pdfbox.pdmodel.PDDocument;
    import org.pdfbox.pdfparser.PDFParser;
    import org.pdfbox.util.PDFTextStripper;


    public class PDFReader {
     
     public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
     // 获取PDF内纯文本信息
     public String GetTextFromPdf(String filename) throws Exception
     {
      FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
      PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
      parser.parse();                                              // 执行PDF解析过程
      
      PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
      PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
      String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
      
      System.out.println("文件长度 : "+ contenttxt.length() +" ");
      return contenttxt;http://www.huiyi8.com/jiangbei/sheji/
      
     }
     
     public static void main(String args[])
     {奖杯设计图
      PDFReader pdfbox=new PDFReader();                        // 生成PDFBoxHello对象
      try{
                                                                // 获取文档纯文本内容
       String doctext = pdfbox.GetTextFromPdf(file_path);
       System.out.println("文件内容 : ");   
       System.out.println(doctext);
       System.out.println("文件结束 . ");   
      } catch(Exception e){
       e.printStackTrace();
      }
     }
    }

    1. [图片] pdf.png    

  • 相关阅读:
    数据可视化
    numpy知识点
    机器学习之支持向量机
    python中字符编码及unicode和utf-8区别
    hihocoder图像算子(高斯消元)
    scrapy
    线性规划问题求解(单纯形法)
    机器学习之隐含马尔可夫
    机器学习之决策树
    机器学习之逻辑回归与最大熵模型
  • 原文地址:https://www.cnblogs.com/xkzy/p/4015814.html
Copyright © 2011-2022 走看看