首先下载HtmlAgilityPack 官网:http://htmlagilitypack.codeplex.com/
根据自己.net的版本引入dll
实现抓取博客园首页文章列表中的标题和地址,代码如下:
1 WebClient wc = new WebClient(); 2 wc.Encoding = System.Text.Encoding.UTF8; 3 string mainData = wc.DownloadString("http://www.cnblogs.com/"); 4 HtmlDocument htmlDoc = new HtmlDocument(); 5 htmlDoc.LoadHtml(mainData); 6 7 //根据HTML节点NODE的ID获取节点 8 HtmlNode itemList = htmlDoc.GetElementbyId("post_list"); 9 10 //根据XPATH来索引节点 11 //div[2]表示文章链接a位于post_list里面第3个div节点中,获取所有符合该XPATH规则的HtmlNode 12 HtmlNodeCollection navNodeCollection = itemList.SelectNodes("//div[2]/h3/a"); 13 14 for (int i = 0; i < navNodeCollection.Count; i++) 15 { 16 //获取文章链接地址 17 string articleUrl = navNodeCollection[i].Attributes["href"].Value.ToString(); 18 //获取文章标题 19 string articleTitle = navNodeCollection[i].InnerText; 20 }