zoukankan      html  css  js  c++  java
  • 网络爬虫入门系列(三) (Jsoup)

       上一篇文章介绍了httpUrlConnection 访问网页 的java 代码

       

            本篇文章介绍Jsoup  访问网页

       首先 到官网上   https://jsoup.org/download      下载  Jsoup-1.11.2.jar

       导入到项目中

        新建一个类 jsoupCrawler

         编写如下代码

    package org.apache.crawlerType;
    
    import java.io.IOException;
    
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    
    public class jsoupCrawler {
         public static void main(String[] args) {
            try {
                Document doc=Jsoup.connect("http://www.cnblogs.com/szw-blog/p/8565944.html")
                  .timeout(1000)    //设置超时时间
                  .userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0")    //设置浏览器请求头
                  .header("Accept-Language", "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2")      //设置请求头
                  .get();
                
                System.out.println(doc.toString());
                
            } catch (IOException e) {
                e.printStackTrace();
            }
             
             
             
        }
    }

         运行后的结果是

     以上就是 Jsoup 访问网页的  java 代码

  • 相关阅读:
    Adobe Acrobat XI Pro破解版 v11.0.10中文版
    linux经典面试题
    P1540 机器翻译(STL 链表)
    P1067 多项式输出 (模拟)
    P1003 铺地毯
    [CF547C] Mike and Foam
    [CF351B] Jeff and Furik
    [CF900D] Unusual Sequences
    [CF568B] Symmetric and Transitive
    [CF893E] Counting Arrays
  • 原文地址:https://www.cnblogs.com/szw-blog/p/8566666.html
Copyright © 2011-2022 走看看