zoukankan      html  css  js  c++  java
  • c# 抓取 js动态生成的HTML的工具:NHtmlUnit‎

    (此博客文章纯属个人记录,转载请注明出处!)

    官方地址:NHtmlUnit

    编译获取dll方法:

    1.下载nuget.exe (nuget所在网站:http://www.nuget.org/)

    2.打开DOS命令对话框,

     进入nuget.exe文件所在目录(我的exe文件放在桌面)

    3.运行命令安装NHtmlUnit,安装后会在当前目录创建两个文件夹,一个是安装所需环境IKVM,另一个就是需要的NHtmlUnit文件夹,里面的lib目录下面有生成的dll

    运行命令:nuget install NHtmlUnit

    3.使用方法可以去HtmlUnit的官方网站阅读文档,或在博客园搜索教程,与JAVA的HtmlUnit的用法是一样的,NHtmlUnit只是

    在HtmlUnit上加了个壳使.net可以调用JAVA而已。

    实例代码(引用dll:HtmlUnit,NHtmlUnit,为了偷懒,我把所有IKVM的dll都引用了):

    class Program
        {
            static void Main(string[] args)
            {
                WebClient client = new WebClient();
                client.Options.JavaScriptEnabled = false;
                client.Options.CssEnabled = true;
                client.Options.ThrowExceptionOnScriptError = false;
                client.Options.Timeout = 5000;
                HtmlPage page = client.GetHtmlPage("http://www.baidu.com/#wd=11&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&rsv_sug3=2&rsv_sug2=0&inputT=26");
                Thread.Sleep(3000);
                string xml = page.AsXml();
                HtmlDocument doc = new HtmlDocument();//忽略此类,这个类是其他DLL提供的,与NHtmlUnit无关
                doc.LoadHtml(xml);
                string nodeName = doc.GetElementbyId("container").Name;
                Console.WriteLine("
    
    
    
    " + nodeName + "
    
    
    
    " );
                Console.Read();
            }
        }
  • 相关阅读:
    类的加载过程
    ASCII码表
    uboot main_loop函数分析
    串行CPU设计
    __attribute__ ((section(".text")))的测试
    NandFlash
    测试gcc的优化选项
    如何编写一个简单的makefile
    UBOOT的多支持性与可裁剪性
    函数指针的使用
  • 原文地址:https://www.cnblogs.com/zcjiang/p/3579879.html
Copyright © 2011-2022 走看看