zoukankan html css js c++ java

C#HTML解析利器HtmlAgilityPack

　　HtmlAgilityPack是一个开源的解析HTML元素的类库，最大的特点是可以通过XPath来解析HMTL，如果您以前用C#操作过XML，那么使用起HtmlAgilityPack也会得心应手。目前最新版本为1.4.6,下载地址如下：http://htmlagilitypack.codeplex.com/ 目前稳定的版本是1.4.6，上一次更新还是2012年，所以很稳定，基本功能全面，也没必要更新了。 
　　提到HtmlAgilityPack，就必须要介绍一个辅助工具，不知道其他人在使用的时候，是如何分析页面结构的。反正我是使用官方提供的一个叫做HAPExplorer的工具。非常有用。下面我们在使用的时候会介绍如何使用。
还是以辽宁省为例：http://www.tianqihoubao.com/lishi/ln.htm ,打开页面，右键获取网页源代码后，粘贴到 HAPExplorer 中，也可以直接在HAPExplorer 中打开链接，如下面的动画演示：
　　我们可以看到，右侧的XPath地址，div结束后，下面都是dl标签，就是我们要采集的行了。下面我们用代码来获取上述结构。先看看获取页面源代码的代码：



public static string GetWebClient(string url)
{
    string strHTML = "";
    WebClient myWebClient = new WebClient();            
    Stream myStream = myWebClient.OpenRead(url);
    StreamReader sr = new StreamReader(myStream, Encoding.Default);//注意编码
    strHTML = sr.ReadToEnd();
    myStream.Close();
    return strHTML;
}


public static void ParsePageByArea(String cityCode)
{
    //更加链接格式和省份代码构造URL
    String url = String.Format("http://www.tianqihoubao.com/lishi/{0}.htm", cityCode);
    //下载网页源代码 
    var docText = HtmlHelper.GetWebClient(url);
    //加载源代码，获取文档对象
    var doc = new HtmlDocument(); doc.LoadHtml(docText);
    //更加xpath获取总的对象，如果不为空，就继续选择dl标签
    var res = doc.DocumentNode.SelectSingleNode(@"/html[1]/body[1]/div[1]/div[6]/div[1]/div[1]/div[3]");
    if (res != null)
    {
        var list = res.SelectNodes(@"dl");//选择标签数组
        if (list.Count < 1) return;
        foreach (var item in list)
        {
            var dd = item.SelectSingleNode(@"dd").SelectNodes("a");
            foreach (var node in dd)
            {
                var text = node.InnerText.Trim();
                //拼音代码要从href属性中进行分割提取
                var herf = node.Attributes["href"].Value.Trim().Split('/', '.');
                Console.WriteLine("{0}:{1}", text, herf[herf.Length - 2]);
            }
        }
    }
}
源地址：http://www.cnblogs.com/asxinyu/p/CSharp_HtmlAgilityPack_XPath_Weather_Data.html

查看全文

相关阅读:
对 String 的几个错误认识 X
用C# 自定义Window7的JumpList（跳转列表） X
IPv6无状态自动配置功能配合DHCPv6无状态配置功能实现IPv6自动分配
 H3C S7500E IPV6白皮书
 静默方式执行chkdsk命令
 IPv6基本知识（转载）
解决win7官方主题themepack无法安装的问题
 英保通等PXE网刻软件的使用
 通过命令提示符修改windows默认打印机
 OFFICE2010出现两个激活信息的处理办法。

原文地址：https://www.cnblogs.com/l1pe1/p/7197434.html