htmlAgilitypack抓取页面总结 - 走看看

zoukankan html css js c++ java

htmlAgilitypack抓取页面总结

近两天一直在搞页面抓取，先开始是想从正则式下手，然后轻而易举的写了个抓取总页数的正则，并且成功抓到，后来抓取table里的数据真发愁了，因为table里的数据有图片属性，有td值，很不好抓，幸好找了个好插件htmlAgilitypack转换xml，废话不多说，开始总结，这这之前请先学一下xpath语法。

引入using HtmlAgilityPack;和dll

一：装载页面

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding("gb2312");
HtmlDocument doc = web.Load(@地址);

二：寻找节点

HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath

这里的是个node集合，你可以遍历它去出里面的node，并且每个node还有好多方法取到它下面的任一个node任何属性值

三：没有了，大功告成，简单吧，提醒一句图片是抓不到的

qq群:257020224

查看全文

相关阅读:
功能测试用例大全
 相对最完整的软件测试工具手册
 测试用例的评审
 黑盒测试学习笔记-(深圳文鹏)
Llinux：ubuntu常用命令（深圳文鹏）
HDU-4857(拓扑排序)
HDU-3665（单源最短路）
HDU-3661(贪心)
HDU-2059龟兔赛跑（基础方程DP-遍历之前的所有状态）
HDU-1047（DP-二进制状态压缩）

原文地址：https://www.cnblogs.com/weiwin/p/3069203.html

Copyright © 2011-2022 走看看