zoukankan      html  css  js  c++  java
  • 【.NET】使用HtmlAgilityPack抓取网页数据

    刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目HtmlAgilityPack,提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用

    首先说下XPath路径表达式

    XPath路径表达式

      用来选取XML文档中的节点或节点集的

      1、术语:节点(Node):7种类型:元素,属性,文本,命名空间,处理命令,注释,文档(根)节点

      2、节点关系:父(Parent),子(Children),同胞(Sibling),先辈(Ancestor),后代(Descendant)

      3、路径表达式

       nodename  节点名,选取此节点的所有子节点  例: childnode  当前节点中的childnode子节点,不包含孙子及以下的节点

          /     从根节点选取  例:/root/childnode/grandsonnode  

           //     表示所有后代节点  例://childnode    所有名为childnode的后代节点

          .    表示当前节点  例:  ./childnode    表示当前节点的childnode节点

          ..     表示父节点  例:  ../nearnode     表示父亲节点的nearnode子节点

           @    选取属性  /root/childnode/@id     表示childnode的所有含有id属性的节点集

      4、谓语(Predicates)

        谓语可以对节点集进行一些限制,使选择更精确

          /root/book[1]    节点集中的第一个节点

          /root/book[last()]  节点集中最后一个节点

          /root/book[position() - 1]  节点集中倒数第二个节点集

          /root/book[position() < 5]  节点集中前五个节点集

          /root/book[@id]      节点集中含有属性id的节点集

          /root/book[@id='chinese']  节点集中id属性值为chinese的节点集

          /root/book[price > 35]/title  节点集中book的price元素值大于35的title节点集

      5、通配符:XPath路径中同样支持通配符(*,@*,node(), text())

        例:  /bookstore/*

            //title[@*]

      6、XPath轴

        定义相对于当前节点的节点集

          ancestor    所有祖先节点

          attribute    所有属性节点

          child      所有子元素

          descendant  所有后代节点(子,孙。。。)

          following    结束标记后的所有节点      preceding   开始标记前的所有节点

          following-sibling  结束标记后的所有同胞节点

          preceding-sibling  开始标记前的所有同胞节点

          namespace   当前命名空间的所有节点

          parent     父节点

          self       当前节点

        用法:轴名称::节点测试[谓语]

          例:  ancestor::book

                child::text()

      7、运算符

        |  两个节点集的合并  例:/root/book[1] | /root/book[3]

        +,-,*,dev,mod

        =,!=,<,>,<=,>=

        or,and  或和与

     

    复制代码
        //删除注释,script,style
        node.Descendants()
                    .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")
                    .ToList().ForEach(n => n.Remove());
    
    
        //遍历node节点的所有后代节点
        foreach(var HtmlNode in node.Descendants())
        {
            
        }
    复制代码

    HtmlAgilityPack类库用法

      1、首先需要获取到html页面数据,可以通过WebRequest类来获取

    复制代码
            public static string GetHtmlStr(string url)
            {    
                try
                {
                    WebRequest rGet = WebRequest.Create(url);
                    WebResponse rSet = rGet.GetResponse();
                    Stream s = rSet.GetResponseStream();
                    StreamReader reader = new StreamReader(s, Encoding.UTF8);
                    return reader.ReadToEnd();
                }
                catch (WebException)
                {
                    //连接失败
                    return null;
                }
            }
    复制代码

      2、通过HtmlDocument类加载html数据

    复制代码
            string htmlstr = GetHtmlStr("http://www.hao123.com");
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(htmlstr);
            HtmlNode rootnode = doc.DocumentNode;    //XPath路径表达式,这里表示选取所有span节点中的font最后一个子节点,其中span节点的class属性值为num
            //根据网页的内容设置XPath路径表达式
            string xpathstring = "//span[@class='num']/font[last()]";    
            HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的节点都是一个集合
            
            if(aa != null)
            {
                string innertext = aa[0].InnerText;
                string color = aa[0].GetAttributeValue("color", "");    //获取color属性,第二个参数为默认值
                //其他属性大家自己尝试
            }
    复制代码

      也可以通过HtmlWeb类来获得HtmlDocument

            HtmlWeb web = new HtmlWeb();
            HtmlAgilityPack.HtmlDocument doc = web.Load(url);
            HtmlNode rootnode = doc.DocumentNode;

    补充:

      多个属性条件查询      //div[@align='center' and @height='24']

      不存在class属性       //div[not(@class)]

  • 相关阅读:
    每个程序员都应该了解的内存知识
    关于CPU Cache -- 程序猿需要知道的那些事
    【转载】十分钟搞清字符集和字符编码
    初学 Java Web 开发,请远离各种框架,从 Servlet 开发
    XML
    接口比对象更加抽象
    【转载】Dom4j的使用(全而好的文章)
    BZOJ4870:[SHOI2017]组合数问题(组合数学,矩阵乘法)
    BZOJ1089:[SCOI2003]严格n元树(DP,高精度)
    BZOJ1259:[CQOI2007]矩形rect(DFS)
  • 原文地址:https://www.cnblogs.com/zhy-1992/p/7171282.html
Copyright © 2011-2022 走看看