zoukankan      html  css  js  c++  java
  • [转].NET下读取PDF文本

    本文转自:http://blog.csdn.net/wangqiuyun/article/details/8548779

    在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。

    先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:

    1、下载PDFBox

    下载地址:http://sourceforge.net/projects/pdfbox/

    2、引用动态链接库

    解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间: using org.pdfbox.pdmodel; using org.pdfbox.util;

    3、API的使用方法看代码:

    1. using org.pdfbox.pdmodel;  
    2. using org.pdfbox.util;  
    3. public void pdf2txt(FileInfo file,FileInfo txtfile)  
    4. {  
    5.         PDDocument doc = PDDocument.load(file.FullName);  
    6.         PDFTextStripper pdfStripper = new PDFTextStripper();  
    7.         string text = pdfStripper.getText(doc);  
    8.         StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
    9.         swPdfChange.Write(text);  
    10.         swPdfChange.Close();  
    11. }  
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;
    public void pdf2txt(FileInfo file,FileInfo txtfile)
    {
            PDDocument doc = PDDocument.load(file.FullName);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            string text = pdfStripper.getText(doc);
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
            swPdfChange.Write(text);
            swPdfChange.Close();
    }

    iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:

    1、下载iTextSharp

    下载地址:http://sourceforge.net/projects/itextsharp/

    2、引用动态链接库

    解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可 在文件中需要引入以下3个命名空间: using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;

    3、API的使用方法看代码:

    1. private string OnCreated(string filepath)  
    2. {  
    3.     try  
    4.     {  
    5.         string pdffilename = filepath;  
    6.         PdfReader pdfReader = new PdfReader(pdffilename);  
    7.         int numberOfPages = pdfReader.NumberOfPages;  
    8.         string text = string.Empty;  
    9.   
    10.         for (int i = 1; i <= numberOfPages; ++i)  
    11.         {  
    12.             byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  
    13.             text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  
    14.         }  
    15.         pdfReader.Close();  
    16.   
    17.         return text;  
    18.     }  
    19.     catch (Exception ex)  
    20.     {  
    21.         StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\mylog.log");  
    22.         wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());  
    23.         wlog.Flush();  
    24.         wlog.Close();return null;  
    25.     }  
    26.   
    27. }  
  • 相关阅读:
    【每日一学】pandas_透视表函数&交叉表函数
    【Excel技能】字符串包含某字符串个数?替换许多组字符串?
    【SQL函数】我知道你想group_concat和count一起用,比如不同组合的人数?
    mysql大纲
    【Excel】绘图案例_常见复合图:簇状图+堆积图+折线图
    【统计分析方法】1.统计学知识图谱
    【统计分析方法】知识图谱(主要是统计推断部分)
    python之前期常用的内置函数
    python之匿名函数,函数递归
    python之三元表达式、列表生成式、字典表达式、生成器表达式
  • 原文地址:https://www.cnblogs.com/freeliver54/p/5048532.html
Copyright © 2011-2022 走看看