zoukankan      html  css  js  c++  java
  • 使用HttpHandler解析并展示PDF文档内容(转载)

    使用HttpHandler解析并展示PDF文档内容

    2009-03-11 11:08 by LanceZhang, 2510 visits, 网摘, 收藏, 编辑

    前言

    如果我们想将服务端的PDF文档内容展示给客户端,往往会通过URL直接访问的方式。这样一来,PDF文档就会毫无保留的保存到客户端去,通过浏览器的PDF插件,客户端可以随意拷贝PDF的副本。(如下图)

    本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制,只向客户端解析并展示PDF的内容而非PDF文件本身。

    PDF解析

    目前有许多PDF解析组件,国内比较常用的是iTextSharp,该控件早期从JAVA移植过来,完全支持.NET平台,在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心,只有少数复杂难用的类可以让我们读取PDF。故不适合本案。

    PDFBox在此方面表现却非常突出,同样,它也是从java平台移植过来的, 常用来作为Lucene的PDF索引器。目前,它的开源项目中已经包含了通过IKVM.NET(IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.)封装,而支持.NET的组件。

    PDFBox对PDF的读取解析非常简单,只用如下代码即可完成:

    private static string parseUsingPDFBox(string filename)
    {
        PDDocument doc 
    = PDDocument.load(filename);
        PDFTextStripper stripper 
    = new PDFTextStripper();
        
    return stripper.getText(doc);
    }

    故我们选取PDFBox作为PDF解析器。

    编写HttpHandler

    接下来,我们新建一个类库项目,在其中创建PDFHandler类,实现IHttpHandler接口,用来作为.pdf文件的handler。

    主要完成的步骤如下:

    1. 为类库和网站添加如下引用:

    • PDFBox-0.7.2.dll
    • IKVM.GNU.Classpath.dll

       并将下面两个类库也复制到网站的Bin文件夹中:

    • FontBox-0.1.0-dev.dll
    • IKVM.Runtime.dll

    2. 编写PDFHandler类:

    using System;
    using System.Collections.Generic;
    using System.Text;
    using System.Web;
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;
    using System.Web.UI.WebControls;
    using System.Web.UI;
    using System.IO;

    namespace LanceZhang.HTTP
    {
        
    public class PDFHandler:IHttpHandler
        {
            
    #region IHttpHandler Members

            
    public bool IsReusable
            {
                
    get { return true; }
            }

            
    public void ProcessRequest(HttpContext context)
            {
                
    //获取请求的文件路径,如C:\www\a.pdf
                string path = context.Request.MapPath(context.Request.Path);

                
    //创建PDF实体和文字解析器
                PDDocument doc = PDDocument.load(path);
                PDFTextStripper stripper 
    = new PDFTextStripper();

                
    //创建一个TextBox用来显示PDF内容
                TextBox tb = new TextBox();

                tb.Style.Add(
    "width","100%");
                tb.Style.Add(
    "height""100%");

                tb.TextMode 
    = TextBoxMode.MultiLine;
                tb.Text
    =stripper.getText(doc);

                
    //将TextBox render出来
                context.Response.Write(RenderControlAsString(tb));
            }

            
    public string RenderControlAsString(Control ctl)
            {
                StringWriter sw 
    = new StringWriter();
                HtmlTextWriter writer 
    = new HtmlTextWriter(sw);
                ctl.RenderControl(writer);
                
    return sw.ToString();
            }


            
    #endregion
        }
    }

    部署HttpHandler

    1.  编码完成后,我们编译Handler类库项目,并添加网站对该项目的引用。

    2.  要使客户端对*.pdf文件的请求被handler处理,我们还需要在web.config中配置刚刚编写好的handler:

    <system.web>
        
    <httpHandlers>
          
    <add verb="*" path="*.pdf" type="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP"/>
        
    </httpHandlers>
    </system.web>

    3. 这时,使用Visual Studio自带的ASP.NET Deployment Server已经可以成功运行程序了。然而,如果将网站部署到IIS中,我们还需要对IIS的应用程序配置做出修改,在程序映射中,使用aspnet_isapi.dll来处理.pdf文件:

    OK,接下来启动IIS,浏览“CardSpace.pdf”文件,我们就可以得到下面的效果:

    下载PDFBox类库

    download the PDFBox package

    转载自:http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

    PS: 开阔思路,不推荐该方式,因为只能读取文本,图片无法显示;而且会破坏文档的结构,用于索引倒是可以,但用于索引时好像会解析出现乱码。

  • 相关阅读:
    数值分析实验之平方根法解线性方程组(MATLAB代码)
    Packet Tracer 下载方法
    注册 Netacad (思科)账户 超详细流程
    数值分析实验之非线性方程求根(Python 现)
    数值分析实验之非线性方程求根(MATLAB实现)
    数值分析实验之矩阵的LU分解及在解线性方程组中的应用(java 代码)
    数值分析实验之矩阵的LU分解及在解线性方程组中的应用(MATLAB 代码)
    数值分析实验之矩阵的LU分解及在解线性方程组中的应用(Python 代码)
    数值分析实验之数值积分法(MATLAB代码)
    在python3中安装mysql扩展,No module named 'ConfigParser'
  • 原文地址:https://www.cnblogs.com/wuhenke/p/1601415.html
Copyright © 2011-2022 走看看