zoukankan      html  css  js  c++  java
  • 格式转换PDF格式研究笔记(一)

    现在我的几个计划都需要我能够对PDF格式进行解码,所以找了一下资料,找到了一个PDF1.3的手册,特放出下载,如果谁有更高版本的,请给我一份,谢谢。
    因为最近很忙,所以就不做严格的翻译了,这个笔记将是一个比较简单的文档,而且不会涉及到比较复杂的PDF特性,目前关注点主要在于Pdf->Txt的转换。

    下面是正式的笔记:

    概述

    PDF文件依赖于PostScript的图像模型,对文本和图像用设备无关和资源无关的语法进行描述。为了提高交互速度,PDF定义了一些不同于PostScrtpi的格式。PDF支持对象,比如注释和超链接,他们不是页面的组成部分,但是对于交互式显示非常重要。
    PDF文件是用一系列编号的对象来建立的。文本,图形和图像等对象用PsostScript语言组织成页面。
    但是PDF文件不是一个PostScript语言程序,也不能直接用PostScript解释器来解释。但是PDF文件的页面描述信息是可以转换成PostScript程序的。

    坐标系统

    PDF的坐标系统定义了一个画布,用来显示你的PDF文档。文本、图形和图像在页面上的位置、方向和大小都是用这个坐标系统来定义的。
    PDF支持几种坐标系统,他们大部分和PostScript的坐标系统相同。
    后暂略...

    对象

    PDF支持7种类型的对象,booleans, numbers, strings, names, arrays, dictionaries 和 streams.
    boolrans就是true和false。
    number,PDF同时两种数字,整数和实数,但是不支持指数格式的实数(科学计数法)。
    string和text
    string就是用"("和")"包括起来的字符串,如果字符串太长可以在行尾加上\,表明下一行和本行是连在一起的。
    text一般用PDFDocEncoding或者Unicode来进行编码。PDFDocEncoding是ISOLatin1的一个超集,在0-255的编码上PDFDocEncoding和Unicode是兼容的。
    如果text是用Unicode编码的,那么text的前两个字节必须是[FE FF]。[FE FF]代表Unicode的高位字节必须在前。
    text还可以包含一个换码序列来标明text使用的语言。换码序列必须用Unicode的16进制值U+001B开头,后面跟随两个由ISO639标准 定义的表示语言的ASCII代码,然后可选择的,跟随两个由ISO3166定义的表示国家的ASCII代码。汉语的语言编号是zh,中国的编号是CN。
    name就是一个用/开头的string。
    array就是一个对象的序列。一个array可以有多种类型的对象在其中。用"["开头,用"]"结束。下面是一个array的例子:
    [0 (Higgs) false 3.14 3 549 /SomeName]
    上面的例子也可以作为刚才说过的几种对象的例子。
    dictionary是一对对象的对应表。第一个对象叫做key,第二个叫做value。key必须是一个name对象(这点和PostScript里面的dictionay对象的key不同)。value可以是任何的对象,甚至也可以是一个dictionary。
    dictionay用"<<"开始,">>"结束。一般dictionay的例子:
    << /Type /Example /Key2 12 /Key3 (a string) >>
    包含dictionay的dictionay的例子:
    <<
    /Type /AlsoAnExample
    /Subtype /Bad
    /Reason (unsure)
    /Version 0.01
    /MyInfo
    <<
    /Item1 0.4
    /Item2 true
    /LastItem (not!)
    /VeryLastItem (OK)
    >>
    >>
    dictionary对象是PDF文档的主要构成部分。PDF文档的很多部分,比如页面、字体,都是用dictionary来表现的。
    stream和string一样就是一个字符的序列。然而应用程序可以读取stream的一个部分,但是读取string就必须读取整个string。所以,尺寸大的数据,比如图像或者页面描述,一般用stream来表现。
    一个stream包含一个dictionary,后面是关键字stream,然后是0行或者多行的字符序列,后面是关键字endstream。
    所有的stream必须是间接对象。stream的dictionary必须是一个直接对象。关键字stream和stream的dictionary之间必须用回车换行符来分割而不能仅仅用换行符。
    stream的格式细节暂略。
    null关键字用来表现null对象。
    直接对象就是boolean、number、string、name、array、dictionary、stream或者null。一个间接对象就是一 个直接对象加上了一个标签,这样就可以被其他的对象所引用。任何类型的对象都可以被标签为间接对象。间接对象非常有用,比如,你可以把stream的 Length key设定为了一个间接对象,这样长度可以保存在stream后面。这样可以让应用程序用一个流程来生成一个PDF文件。
    一个间接对象包括一个对象标识符,一个直接对象和一个endobj关键字。对象标识符包括一个整数的对象编号,一个整数的生成编号,和一个obj关键字。形如:
    1 0 obj
    (test)
    endobj
    用在arrary和dictionary元素里面的对象可以是直接对象,也可以是间接对象。间接对象引用包含一个间接对象的对象编号和产生编号,还有一个关键字R。例如:
    << /Length 8 0 R >>
    8 0 obj
    64
    endobj

    这里的长度就等于8 0代表的number??64。
    注意:引用一个没有定义的对象,不是一个错误,而是相当于引用一个null对象。

  • 相关阅读:
    Java Socket通信实现私聊、群聊
    一套简单的web即时通讯——第二版
    一套简单的web即时通讯——第一版
    前后端API交互数据加密——AES与RSA混合加密完整实例
    跨境电商ERP中的自动化 3.平台订单自动发货
    跨境电商ERP中的自动化 2.平台商品和本地单品自动绑定
    跨境电商ERP中的自动化 1.平台订单自动同步至本地
    小特工具箱3.0版发布 春节优惠价99元/套
    河南农信移动支付解析
    win10 chrome 百分浏览器 centbrowser 收藏夹栏字体突然变小
  • 原文地址:https://www.cnblogs.com/swneng/p/1298637.html
Copyright © 2011-2022 走看看