zoukankan      html  css  js  c++  java
  • 网络爬虫之HttpClient

    网络爬虫之HttpClient

    1. HttpClient

      • 网络爬虫就是用程序爬取资源,需要使用Http协议访问互联网的网页,在爬虫过程中使用java的Http协议客户端HttpClient这个技术来实现抓取网页中的数据

    2. HttpClient之Get请求

    3. 下面进行代码实现

    网络爬虫之HttpClient

    1. HttpClient

      • 网络爬虫就是用程序爬取资源,需要使用Http协议访问互联网的网页,在爬虫过程中使用java的Http协议客户端HttpClient这个技术来实现抓取网页中的数据

    2. HttpClient之Get请求

    3.  代码:

    package cn.itcast.crawler.test;

    import org.apache.http.HttpEntity;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;

    import java.io.IOException;

    public class HttpGetTest {
    public static void main(String[] args) {
    //1.创建HttpClient对象
    CloseableHttpClient httpClient= HttpClients.createDefault();
    //2.创建HttpGet对象,设置URL地址
    HttpGet httpGet=new HttpGet("https://www.baidu.com");
    //使用httpClient发起响应获取repsonse
    CloseableHttpResponse response=null;
    try {
    response=httpClient.execute(httpGet);
    //4.解析响应,获取数据
    //判断状态码是否是200
    if(response.getStatusLine().getStatusCode()==200){
    HttpEntity httpEntity=response.getEntity();
    String content=EntityUtils.toString(httpEntity,"utf8");
    System.out.println(content.length());
    }
    } catch (IOException e) {
    e.printStackTrace();
    }finally {
    try {
    response.close();
    } catch (IOException e) {
    e.printStackTrace();
    }
    try {
    httpClient.close();
    } catch (IOException e) {
    e.printStackTrace();
    }
    }

    }
    }
    执行结果:

     

     

     

     

     

     

  • 相关阅读:
    团体程序设计天梯赛-练习集L1-002. 打印沙漏
    WUOJ-ACM :1003: 零起点学算法78——牛牛
    ZOJ-2965
    天梯赛-L1-018. 大笨钟
    代码哲学 摒弃“够用就行”的心态
    github 源码阅读
    Biopython SeqIO 读取序列文件,读取信息,写入序列
    Biopython 模块处理Seq序列 方法
    coursera 有比较丰富的生物信息等课程 win7 访问设置
    python 正则匹配 csv文件中特殊符号如■高风险 这样的black block
  • 原文地址:https://www.cnblogs.com/juddy/p/13111432.html
Copyright © 2011-2022 走看看