epub是一种在PC和手机上广受欢迎的电子书格式,相比pdf电子书,epub电子书的版面灵活显示清晰,而pdf若显示扫描图片形式的文档,若扫描效果比较差,则阅读体验也会很差。epub文档的mime类型是application/epub+zip,因此要想解析epub文档,首先要熟悉zip文件,也就是要了解zlib库。
关于 EPUB 格式
EPUB 是可逆的数字图书和出版物 XML 格式,数字出版业商业和标准协会 International Digital Publishing Forum (IDPF) 制定的标准。IDPF 于 2007 年 10 月正式采用 EPUB,随后被主流出版商迅速采用。可以使用各种开放源代码或者商业软件在所有主流操作系统、Sony PRS 之类的 e-ink 设备或者 Apple iPhone 之类的小型设备上阅读 EPUB 格式。
简单 EPUB 档案的目录和文件结构
mimetype
META-INF/
container.xml
OEBPS/
content.opf
title.html
content.html
stylesheet.css
toc.ncx
images/
cover.png
三合一的标准
EPUB 包括三个单独的 IDPF 规范,虽然实际上将其统称为 EPUB 更保险:
- Open eBook Publication Structure Container Format (OCF):定义了 EPUB 档案的目录树结构和文件结构(ZIP)。
- Open Publication Structure (OPS):定义了电子图书的公共词汇表,特别是可作为图书内容的格式(比如 XHTML 和 CSS)。
- Open Packaging Format (OPF):描述了 EPUB 必须的和可选的元数据、阅读顺序和目录。
此外,对于档案中的特定类型的内容,EPUB 还重用了其他一些标准,如 XHTML 1.0 和 Digital Accessible Information SYstem (DAISY)。
为何说 EPUB 对开发人员是友好的
EPUB 解决了 PDF 和开发人员友好性有关的所有瑕疵。一个 EPUB 就是一个简单 ZIP 格式文件(使用 .epub 扩展名),其中包括按照预先定义的方式排列的文件。如何制作 ZIP 文档有一些技巧,稍后将在 将 EPUB 文件捆绑为 ZIP 文档 一节介绍。除此以外,EPUB 非常简单:
- EPUB 中的所有内容基本上都是 XML。EPUB 文件可使用标准 XML 工具创建,不需要任何专门或者私有的软件。
- EPUB 内容(eBook 的具体内容)基本上都是 XHTML 1.1(另一种格式是 DTBook,为视力受限者编码书籍的一种标准。关于 DTBook 的更多信息请参阅 参考资料,本教程中不涉及这部分)。
- 大多数 EPUB XML 模式都来自现成的、可免费获得的、已发布的规范。
最关键的在于 EPUB 元数据是 XML,EPUB 内容是 XHTML。如果您的文档构建系统产生的结果用于 Web 和/或基于 XML,那么也可用于生成 EPUB。