简化 XML 读写
http://www.ibm.com/developerworks/cn/xml/x-simplifyxmlreads.html
使用 XPath 等查询定义显著简化 DOM 编码 |
级别: 初级 Cameron Laird (claird@phaseit.net), 副总裁, Phaseit, Inc. 2007 年 7 月 02 日 合理使用 XML,XPath 就能够显著地简化和加速应用程序。如果您的工具包中还没有 XPath,那么现在就把它添加进来吧。使用 Python 简要编写的具体示例使查询习语的出现更为自然。 XPath 理应成为您的朋友。 如果您很少使用 XML 进行开发,并且从未使用过 XPath,那么您将有机会开发性能更强、可维护性更佳的应用程序。这篇文章详细介绍了一些特定的示例,用来演示在简单的 XML 处理中,查询方法能够造成多大的影响。 要确保 XPath 进展顺利,需考虑一些基础原理:
developerWork 上 XML 专区的读者大多致力于 C、C++、或 Java 开发。但 Python Python 是一种很值得展示的工具,因为它读起来像流线型的伪代码,并且广泛可用。即便是 Python 的初学者也能理解后继的用法。 类似于许多其他语言,Python 支持大量的 XML 库。过去常常会不知道从何处开始。然而,随着 Python 2.5 版本的推出,Fredrik Lundh 的非凡的 ElementTree 模块成为了标准;本文的示例将使用这个库。库本身很小,并能附加到任何 1.5.2 以上的 Python 版本中,参考资料 中对此作出了解释。正确安置好 ElementTree 后,执行示例程序所需的一切条件都已就绪。 目前大多数 XML 编程都是基于文档对象模型(Document Object Model,DOM )。这一模型将 XML 实例视为一个元素树,使用标记对元素进行标识,很多元素都有属性和/或子元素。XML 编程是一项繁重的工作,因为处理必须通过树导航到各个元素。例如,考虑 developerWorks 在开发 developerWorks 文章的内容的过程中所使用的模板 XML 。这看上去与 XHTML 极为相似。它的模式简单易懂,这当然是与工业应用程序(可能是用于采集机器或财务事项的众多细节)中常见的 XML 实例相比而言。即便是使用这个简单的模型,如果您想要报告文本中的所有锚点标记 —— 所有标记为 结果:用于报告所有锚点的一个简单的程序将类似于:
使用下面描述的 5.5.1 引用模板,将产生类似如下的输出:
如果有一种标准的方法可用来查询 DOM 实例、解压指定元素、属性和标记的信息,那么可带来多大的简化?您自己看吧: 清单 3. 基于 XPath 的与清单 1 等价的代码。
清注意,“//a” 在英语中的意思是 “在整个文档中搜索标记为 ‘a’ 的元素”。从本质上说,清单 3 产生的输出与 清单 2 的输出是相同的。
比较 清单 1 和清单 3。前者已经够简单了 —— 可是后者更加简单。它消除了明确地指定递归的需求。更重要的是,XPath 代码根据 XML(逻辑)标记,而不是结构。标记更接近于人的思维,并且持续时间长,从这个角度来看,结构是相对短暂的实现细节。通过使用更复杂的查询,XPath 的声明性样式与传统的面向结构的过程搜索实现相比,其优势更加明显。 本文的意义在于,能够把 XPath 融入到现有的 XML 程序开发中,并能立即获得性能和可维护性上的提高。对于我来说,这更像是在使用汇编程序、编译器、和更高阶的语言:我可以完全使用机器语言编写整个程序,但是学习高生产率的方法会简单划算。此外,XPath 通常能提高 手工编码的搜索的性能。 可是,这样却产生了一个问题:有方法改进 XPath 吗?是的,当然有 —— 但是有一些限定。XQuery 和 XSLT 是另外两种接受程度与 XPath 相当的 XML 定义(XSLT 可能是它们三者中使用最为广泛的,而 Xquery 的有用实现则最少)。在声明重点上 XSLT 与 XPath 类似,而 Xquery 在 XPath 的查询中加入了过程的功能。两者都能生成模板 —— 简要地说,嵌入可识别的 XML 代码段的查询 —— 或多或少符合语言习惯。这一点值得注意,因为一些 XML 理论家建议把模板作为理想的表示形式。 但是整体来说,相对于 XPath 产生的巨大效益而言,XQuery、XSLT 或此类特定于语言的查询包(如 Amara、XQJ、或JAXP)所带来的好处都是递增的。参考资料 中提供的 Uche Ogbuji 撰写的论文清晰地比较了采用各种不同方式解决的示例问题。只有在感觉 XML 处理相当复杂的时候,才使用这些更专业的接口。但是现在就开始使用 XPath! 这篇文章的目的是激发您使用 XPath,而不是教您使用它。我希望您可以清楚地认识到学习 XPath 并不会花费太多精力。 同时,我们希望知道使用 XPath 可实现哪些功能。清单 3 中的查询使用 虽然性能测量总是需要缩小至一种特定的测量方法,但是对 XPath 性能的思考需要一些上下文。通俗地讲,XPath 比您所能达到的速度更快。在大型的、复杂的程序中,性能至关重要,XPath 查询比同等的手工编写的过程代码运行得更快(有时要快很多)。从原则上说,您可使用已有的关于数据内容或布局的知识来编写一个可快速运行的巧妙的查询。但在实践中,使用 XPath 产生的效果类似于使用高级语言(HLL)(而不是汇编程序或 C 语言)所产生的效果:只需少许的工作,开发人员就能够完成一个正确运行的程序,而 HLL 的所有表面上固有的速度缺点都可通过较高级的特定于应用程序的算法来弥补。 使用完全相同的方式,XPath 对一些不可忽视问题简化了编码。在这些问题中,速度造成的影响足以使程序员利用空闲时间小心地开发自己的解决方案。基于 XPath 的解决方案不仅更易于纠错和维护,而且至少是速度快。 此外,一些 XPath 实现是非常细致地编写的,其内存使用率比普通的过程搜索更高。在这些例子中,基于 XPath 的编码能极大地提高搜索速度 —— 十倍或更高。 没有展示特定的测量方法来说明这些问题确实令人沮丧。虽然,任何特定的对比都会产生误导;但是 XPath 的相对性能取决于开发语言、特定的 XPath 实现、XML 查询图像、搜索、和运行时可用内存(大多数情况)的布局。学习如何进行简单的计时,并学习在您的 应用程序的数据集上测试 XPath。如果您的经验和我差不多,那么您时常会发现 XPath 只有原生编码一半的速度,对于一些小问题尤为显著,但是与其它语言相比速度还是要快一个级别。 XPath 是一种 XML 工具,使用成本极低:您可能已通过使用的开发语言将其构建到 XML 库中。同时,XPath 具有显著提高性能的潜力,并且其简单的表示实实在在地简化了编程和维护。此外,还有大量的 XPath 教程能帮助您学习所需知识。最终,您将发现在 XPath 上的投入能很快带来收益。 一旦了解了 XPath,您也将能更好地判断是否使用 XML 时太费劲,需要利用一些高级工具(如XQuery 和 XSLT)来使您受益。 务必阅读参考资料中列出的资料,它们能帮助您立即开始使用 XPath 编程。 |