实现html转Xml - 走看看

zoukankan html css js c++ java

实现html转Xml

最近在做一些网页信息采集的工作，说通俗点就是爬虫工具，要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码，经过咨询有经验人士，推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说，不可能100%地完全符合xml标准，那么就没法使用xpath，说得更直接点就是：不能把html源码直接加载到xmldocument中。为了使用xpath，只能对html内容进行转换或者规范，于是就写了这么一个方法。

该方法比较地偷懒，借助了开源工具htmlparser获取html源码中的所有节点，然后遍历各个节点，转换为对应的xmlnode。对于html中有未闭合的节点，在转换后实际代码会有一些差别，但是不影响xpath的使用（这也跟如何写xpath的内容有关）。

实现方式如下，需引用htmlparser的dll

CovertHtmlToXml

查看全文

相关阅读:
HERO 3
office的一些应用，
网页之间的参数传弟
 一个好的数码网站
 C++遍历中删除std::hash_map元素问题
 【转】Asio与shared_ptr的一些注意事项
 delphi的字节对齐
 paypal的即时付款通知参数列表(PDT)
vs2010下libevent的使用
 mysql 数据库 left join,right join, inner join 知识

原文地址：https://www.cnblogs.com/shenba/p/1434050.html

Copyright © 2011-2022 走看看