zoukankan      html  css  js  c++  java
  • 使用HtmlAgilityPack实现对网页内容的抓取

    首先下载HtmlAgilityPack 官网:http://htmlagilitypack.codeplex.com/

    根据自己.net的版本引入dll

    实现抓取博客园首页文章列表中的标题和地址,代码如下:

     1             WebClient wc = new WebClient();
     2             wc.Encoding = System.Text.Encoding.UTF8;
     3             string mainData = wc.DownloadString("http://www.cnblogs.com/");
     4             HtmlDocument htmlDoc = new HtmlDocument();
     5             htmlDoc.LoadHtml(mainData);
     6 
     7             //根据HTML节点NODE的ID获取节点
     8             HtmlNode itemList = htmlDoc.GetElementbyId("post_list");
     9 
    10             //根据XPATH来索引节点
    11             //div[2]表示文章链接a位于post_list里面第3个div节点中,获取所有符合该XPATH规则的HtmlNode
    12             HtmlNodeCollection navNodeCollection = itemList.SelectNodes("//div[2]/h3/a");
    13 
    14             for (int i = 0; i < navNodeCollection.Count; i++)
    15             {
    16                 //获取文章链接地址
    17                 string articleUrl = navNodeCollection[i].Attributes["href"].Value.ToString();
    18                 //获取文章标题
    19                 string articleTitle = navNodeCollection[i].InnerText;
    20             }
  • 相关阅读:
    CSS3 3D转换
    CSS3 2D转换
    CSS3 字体
    CSS3 文本效果
    Spring核心技术(十三)——环境的抽象
    表达式求值
    一些设计上的原则
    POJ2503字典树
    MBR结构解析与fdisk的bash实现
    微服务指南走北(三):Restful API 设计简述
  • 原文地址:https://www.cnblogs.com/servant/p/3064482.html
Copyright © 2011-2022 走看看