向HtmlAgilityPack道歉：解析HTML还是你好用

zoukankan html css js c++ java

向HtmlAgilityPack道歉：解析HTML还是你好用
原文:http://www.cnblogs.com/rupeng/archive/2012/02/07/2342012.html
去年写过一篇文章《解析HTML最好的类还是微软自己的》，回复中有朋友提到可以使用HtmlAgilityPack来进行HTML的解析。当时只是匆匆的测试了一下，发现HtmlAgilityPack得到的InnerText中有很多的不干净的script、样式内容，就断定“不是很满意，解析DiscuzNT！论坛的帖子页面的时候有问题，没法正确得到Body.InnerText的内容，有很多残留html、js代码夹杂在其中，解析的不是很好。”

传智播客.net培训学院内部有一个工具是我开发的，其中的HTML解析部分就是我使用MSHTML完成的，但是今天发现这个软件一个Bug，是MSHTML的HTMLDocumentClass在多线程并发时候有时候会造成死锁。MSHTML是工作在UI线程中的（如果不把DesignMode设置为On，则HTML中的javascript会被执行就是证明），并不是一个干净的、独立的HTML解析组件，因此出现这样的问题很难调试。因此决定还是换用向HtmlAgilityPack实现。

那么如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题呢，在google上搜索“HtmlAgilityPack script innerText”找到了stackoverflow上的这篇文章《C#: HtmlAgilityPack extract inner text》

代码如下：

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
style.Remove();

string innerText = doc.DocumentNode.InnerText;

复制代码

原来这样简单呀，就是把所有的script、style标签从dom树中去掉（为了解决迭代器在工作时不能从集合中Remove元素的问题，使用ToArray()转换为数组再遍历）。

这样操作发现还是有残留的script：



复制代码

仔细一看原来是带条件注释的script，因此用下面的方法去掉所有的注释节点：

代码如下：

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
style.Remove();

foreach (var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray())
comment.Remove();//新增的代码

string innerText = doc.DocumentNode.InnerText;

复制代码

解释：HtmlAgilityPack是使用XPath语法，"//comment()"在XPath中表示“所有注释节点”，关于XPath的详细用法请参考XPath的资料。

其他可能有用的技术点：
1、获取网页title：doc.DocumentNode.SelectSingleNode("//title").InnerText;
解释：XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接：doc.DocumentNode.Descendants("a")

3、获取name为kw的input，也就是相当于getElementsByName()：
var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

解释："//input[@name='kw']"也是XPath的语法，表示：name属性等于kw的input标签。

经过这次使用HtmlAgilityPack得出结论：还是HtmlAgilityPack强大！！！再见MSHTML！
作者：火地晋
出处： http://yelaiju.cnblogs.com
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
查看全文

相关阅读:
[WPF VTK]三维图形开发基础(一)
WP开发（一）
[WPF VTK]三维图形开发基础(四)
人
 WIN8 下IE突然无法打开(管理员权限可打开)
[WPF VTK]三维图形开发基础(三)
堆排序、快排的坑
 双向链表之插入
 [WPF VTK]三维图形开发基础(二)
[转载]Android界面设计学习日志（一）

原文地址：https://www.cnblogs.com/yelaiju/p/2349213.html

热门文章
适配器模式
 组合模式
 建造者模式
 观察者模式
 静态类
 模板方法模式
 状态模式
 桥接模式
 单例模式
 C#、C++混合编程（一）