zoukankan      html  css  js  c++  java
  • 使用Jsoup和htmlunit爬取动态网页

      在对http://zkgg.tjtalents.com.cn/newzxxx.jsp这个网页爬取内容时,如果只使用Jsoup进行解析的话,起内部的a href标签内容无法获取到。

     

     但是实际上通过

    Document doc = Jsoup.connect(url).get();

    获取到的文档只是newzxxx.jsp中respose的内容。

     实际我们想要的内容通过js加载得到的。

    function query(){
       $("formzx").fid.value = "C09.01.01.05";
        $("formzx").set('send',{
            url: 'MainServlet.action', 
            onRequest: function(){
            },
            //成功的回调函数
            onSuccess: function(responseText){  
              $('listspan').innerHTML = responseText;
            },
            //失败的回调函数. 404. 500. 以及返回JSON串success为false时执行
            onFailure: function(responseText){
              $('listspan').innerHTML = responseText;
             }
          });
        $("formzx").send();
      }

    所以这种情况我们可以使用htmlunit来模拟浏览器,并且等待js加载完毕后,再读取整个页面。

    public String getPageWaitJS (String url) throws IOException {
            WebClient webClient = new WebClient();
            webClient.getOptions().setJavaScriptEnabled(true); //启用JS解释器,默认为true
            webClient.getOptions().setCssEnabled(false); //禁用css支持
            webClient.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时,是否抛出异常
            HtmlPage page = webClient.getPage(url);
            webClient.waitForBackgroundJavaScript(3*1000);
            String pageXml = page.asXml(); //以xml的形式获取响应文本
            return pageXml;
        }

    这样的话就能够获取全部的html页面,之后再使用Jsoup来对页面进行解析即可,这里就不放上Jsoup的代码了。

  • 相关阅读:
    Qt QPainter::end: Painter ended whith 2 saced states
    2月6日学习内容
    2月5日学习总结
    2月4日所学内容
    2月3日学习内容
    2月2日学习收获
    2月1日学习内容
    构建之法读后感(一)
    11月从小工到专家读后感(二)
    11月从小工到专家的读后感(一)
  • 原文地址:https://www.cnblogs.com/silentteller/p/13373304.html
Copyright © 2011-2022 走看看