zoukankan      html  css  js  c++  java
  • htmlAgilitypack抓取页面总结

    近两天一直在搞页面抓取,先开始是想从正则式下手,然后轻而易举的写了个抓取总页数的正则,并且成功抓到,后来抓取table里的数据真发愁了,因为table里的数据有图片属性,有td值,很不好抓,幸好找了个好插件htmlAgilitypack转换xml,废话不多说,开始总结,这这之前请先学一下xpath语法。

    引入using HtmlAgilityPack;和dll

    一:装载页面

    HtmlWeb web = new HtmlWeb();
    web.OverrideEncoding = Encoding.GetEncoding("gb2312");
    HtmlDocument doc = web.Load(@地址);

    二:寻找节点

     HtmlNodeCollection listnode = doc.DocumentNode.SelectNodes("//table[@class='hbdtinfo1']/tr");这个参数是xpath

    这里的是个node集合,你可以遍历它去出里面的node,并且每个node还有好多方法取到它下面的任一个node任何属性值

    三:没有了,大功告成,简单吧,提醒一句图片是抓不到的

    qq群:257020224

  • 相关阅读:
    HDU 2023题解分析
    Java中常见的几种类型转换
    Software Version --hdu1976
    单词数
    Usaco 2.3 Zero Sums(回溯DFS)--暴搜
    9的余数
    mongodb学习(一)
    svg学习(九)path
    svg学习(八)polyline
    qunit学习(一)
  • 原文地址:https://www.cnblogs.com/weiwin/p/3069203.html
Copyright © 2011-2022 走看看