zoukankan      html  css  js  c++  java
  • java读取pdf文档

    import java.io.*;
    import org.pdfbox.pdmodel.PDDocument;
    import org.pdfbox.pdfparser.PDFParser;
    import org.pdfbox.util.PDFTextStripper;


    public class PDFReader {
     
     public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
     // 获取PDF内纯文本信息
     public String GetTextFromPdf(String filename) throws Exception
     {
      FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
      PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
      parser.parse();                                              // 执行PDF解析过程
      
      PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
      PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
      String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
      
      System.out.println("文件长度 : "+ contenttxt.length() +" ");
      return contenttxt;http://www.huiyi8.com/jiangbei/sheji/
      
     }
     
     public static void main(String args[])
     {奖杯设计图
      PDFReader pdfbox=new PDFReader();                        // 生成PDFBoxHello对象
      try{
                                                                // 获取文档纯文本内容
       String doctext = pdfbox.GetTextFromPdf(file_path);
       System.out.println("文件内容 : ");   
       System.out.println(doctext);
       System.out.println("文件结束 . ");   
      } catch(Exception e){
       e.printStackTrace();
      }
     }
    }

    1. [图片] pdf.png    

  • 相关阅读:
    安装 TensorFlow
    Active Learning
    基于PU-Learning的恶意URL检测
    AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法
    Graph 卷积神经网络:概述、样例及最新进展
    深度学习在graph上的使用
    xgboost入门与实战(实战调参篇)
    xgboost入门与实战(原理篇)
    机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)
    <html>
  • 原文地址:https://www.cnblogs.com/xkzy/p/4015814.html
Copyright © 2011-2022 走看看