zoukankan      html  css  js  c++  java
  • httpClient

    1.HttpClient简介

           http协议可以说是现在Internet上面最重要,使用最多的协议之一了,越来越多的java应用需要使用http协议来访问网络资源,特别是现在rest api的流行,HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient,很多的java的爬虫也是通过HttpClient实现的,研究HttpClient对我们来说是非常重要的。

    2.HttpClient不是浏览器     

            很多人觉得既然HttpClient是一个HTTP客户端编程工具,很多人把他当做浏览器来理解,但是其实HttpClient不是浏览器,它是一个HTTP通信库,因此它只提供一个通用浏览器应用程序所期望的功能子集,最根本的区别是HttpClient中没有用户界面,浏览器需要一个渲染引擎来显示页面,并解释用户输入,例如鼠标点击显示页面上的某处,有一个布局引擎,计算如何显示HTML页面,包括级联样式表和图像。javascript解释器运行嵌入HTML页面或从HTML页面引用的javascript代码。来自用户界面的事件被传递到javascript解释器进行处理。除此之外,还有用于插件的接口,可以处理Applet,嵌入式媒体对象(如pdf文件,Quicktime电影和Flash动画)或ActiveX控件(可以执行任何操作)。HttpClient只能以编程的方式通过其API用于传输和接受HTTP消息。HttpClient也是完全内容不可知的。

           另一个主要区别是对错误输入或HTTP标准违规的容忍。 需要允许无效的用户输入,以使浏览器用户友好。 还需要对从服务器检索的畸形文档的容忍度,以及在执行协议时服务器行为的缺陷,使尽可能多的用户可访问的网站。 然而,HttpClient努力在默认情况下尽可能接近并遵守HTTP标准规范和相关标准。 它还提供了一些手段来放松规范所施加的一些限制,这些限制允许或要求与不兼容的HTTP源或代理服务器兼容。

    3.HttpClient入门使用

            注意这个版本主要是基于HttpClient4.5.2版本的来讲解的,也是现在最新的版本,之所以要提供版本说明的是因为HttpClient 3版本和HttpClient 4版本差别还是很多大的,基本HttpClient里面的接口都变了,你把HttpClient 3版本的代码拿到HttpClient 4上面都运行不起来,会报错的。所以这儿一定要注意,好了废话不多说了,开始。

    3.1.在pom.xml加入对httpclient的必需的jar包的依赖

       //httpclient的接口基本都在这儿 
       <dependency>
          <groupId>org.apache.httpcomponents</groupId>
          <artifactId>httpclient</artifactId>
          <version>4.5.2</version>
        </dependency>
        //httpclient缓存
        <dependency>
          <groupId>org.apache.httpcomponents</groupId>
          <artifactId>httpclient-cache</artifactId>
          <version>4.5</version>
        </dependency>
        //http的mime类型都在这里面
        <dependency>
         <groupId>org.apache.httpcomponents</groupId>
         <artifactId>httpmime</artifactId>
         <version>4.3.2</version>
        </dependency>

    注意:常见的MIME类型(通用型):

        超文本标记语言文本 .html text/html

        xml文档 .xml text/xml

        XHTML文档 .xhtml application/xhtml+xml

        普通文本 .txt text/plain

        RTF文本 .rtf application/rtf

        PDF文档 .pdf application/pdf

        Microsoft Word文件 .word application/msword

        PNG图像 .png image/png

        GIF图形 .gif image/gif

        JPEG图形 .jpeg,.jpg image/jpeg

        au声音文件 .au audio/basic

        MIDI音乐文件 mid,.midi audio/midi,audio/x-midi

        RealAudio音乐文件 .ra, .ram audio/x-pn-realaudio

        MPEG文件 .mpg,.mpeg video/mpeg

        AVI文件 .avi video/x-msvideo

        GZIP文件 .gz application/x-gzip

        TAR文件 .tar application/x-tar

        任意的二进制数据 application/octet-stream

    3.2.抓取网页的内容并打印到控制台的demo

    先直接贴代码:

    package fangdd.HttpClientDemo;
    
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.InputStreamReader;
    import java.util.Locale;
    
    import org.apache.http.HttpEntity;
    import org.apache.http.client.HttpClient;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;
    
    public class HttpGetNewSample {
    
        public static void main(String[] args) {
            // TODO Auto-generated method stub
            String url="http://www.baidu.com";
    
          
            //1.使用默认的配置的httpclient
            CloseableHttpClient client = HttpClients.createDefault();
            //2.使用get方法
            HttpGet httpGet = new HttpGet(url);
            InputStream inputStream = null;
            CloseableHttpResponse response = null;
    
            try {
                //3.执行请求,获取响应
                response = client.execute(httpGet);
                   
    
                //看请求是否成功,这儿打印的是http状态码
                System.out.println(response.getStatusLine().getStatusCode());
                //4.获取响应的实体内容,就是我们所要抓取得网页内容
                HttpEntity entity = response.getEntity();
    
                //5.将其打印到控制台上面
                //方法一:使用EntityUtils
                if (entity != null) {
                    System.out.println(EntityUtils.toString(entity, "utf-8"));
                }
                EntityUtils.consume(entity);
                
                //方法二  :使用inputStream
               /* if (entity != null) {
                    inputStream = entity.getContent();
    
                    BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
                    String line = "";
                    while ((line = bufferedReader.readLine()) != null) {
                        System.out.println(line);
    
                    }
                }*/
    
            } catch (UnsupportedOperationException | IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } finally {
                if (inputStream != null) {
                    try {
                        inputStream.close();
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                    }
                }
                if (response != null) {
                    try {
                        response.close();
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                    }
                }
    
            }
    
        }
    
    }
    

    3.3HttpClient编写程序流程总结

    其实从上面我们就可以总结出使用HttpClient其实分为6个步骤

    1.创建HttpClient对象

           这儿使用的是org.apache.http.impl.client.CloseableHttpClient,他是HttpClient接口的一个实例,创建该对象的最简单方法是CloseableHttpClient client = HttpClients.createDefault();

    HttpClients是创建CloseableHttpClient的工厂,采用默认的配置来创建实例,一般情况下我们就用这个默认的实例就足够,后面我们可以去看下怎么定制自己需求配置的来创建HttpClient接口的实例。如果你去看这个函数的源代码,你可以看到org.apache.http.client.CookieStore,org.apache.http.client.config.RequestConfig等等都是采用默认的。后面我们会专门有篇博客探讨怎么根据自己的需求定制httpclient。

    2.创建某种请求方法的实例

          创建某种请求的实例,并指定请求的url,如果是get请求,创建对象HttpGet,如果是post 请求,创建对象HttpPost。类型的还有 HttpHead, HttpPost, HttpPut, HttpDelete, HttpTrace, 还有 HttpOptions。分别对应HEAD、POST PUT、DELETE、TRACE、OPTIONS方法,每个方法是做什么的如下表:

    方法 描述 是否包含主体
    GET 从服务器获取一份文档
    HEAD 只从服务器获取文档的首部
    POST 向服务器发送需要处理的数据
    PUT 将请求的主体部分存储在服务器上
    TRACE 对可能经过代理服务器传送到服务器上去的报文进行追踪
    OPTIONS  决定可以在服务器上执行哪些方法
    DELETE 从服务器上删除一份文档

    可以看得到在Http协议中,只有post方法和put方法的请求里面有实体

    3.如果有请求参数的话,Get方法直接写在url后面,例如

    HttpGet httpget = new HttpGet(
          “http://www.google.com/search?hl=zh-CN&q=httpclient&btnG=Google+Search&aq=f&oq=”);

     或者使用setParameter来设置参数

    URI uri = new URIBuilder()
             .setScheme(“http”)
             .setHost(“www.google.com”)
             .setPath(“/ search”)
             .setParameter(“q”,“httpclient”)
             .setParameter(“btnG”,“Google搜索”)
             .setParameter(“aq”,“f”)
             .setParameter(“oq”,“”)
             。建立();
     HttpGet httpget = new HttpGet(uri);
     System.out.println(httpget.getURI());

    stdout>

    http://www.google.com/search?q=httpclient&btnG=Google+Search&aq=f&oq=

    post方法用setEntity(HttpEntity entity)方法来设置请求参数。

    后面会详细的探讨Entity这个东西,专门会有一篇博客的,这儿就不在赘叙。

    4.发送请求。

            调用CloseableHttpClient对象的execute(HttpUriRequest request)发送请求,该方法返回一个CloseableHttpResponse对象。

            CloseableHttpResponse response = client.execute(post);,很明显CloseableHttpResponse就是用了处理返回数据的实体,通过它我们可以拿到返回的状态码、首部、实体等等我们需要的东西。

    5.获取请求结果。

            调用CloseableHttpResponse的getAllHeaders()、getHeaders(String name)等方法可获取服务器的响应头;调用CloseableHttpResponse的getEntity()方法可获取HttpEntity对象,该对象包装了服务器的响应内容。程序可通过该对象获取服务器的响应内容。

     HttpEntity entity = response.getEntity();
                //5.将其打印到显示器上面
                 //方法一:使用EntityUtils
                  /*
                if(entity!=null)
                {
                    System.out.println(EntityUtils.toString(entity,"utf-8"));
                }
                
                EntityUtils.consume(entity)
                */
                //方法二  
                InputStream inputStream = entity.getContent();
    
                BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
                String line = "";
                while ((line = bufferedReader.readLine()) != null) {
                    System.out.println(line);
    
                }

    通过CloseableHttpEntity的getEntity取得实体之后,有两种处理结果的方法,

    方法一:使用EntityUtils来处理。

           该类是官方提供的一个处理实体的工具类,toSting方法将返回的实体转换为字符串,但是官网不建议使用这个,除非响应实体从一个可信HTTP服务器发起和已知是有限长度的。

    方法二:使用InputStream来读取

           因为httpEntity.getContent方法返回的就是InputStream类型。这种方法是官网推荐的方式,需要记得的是要自己释放底层资源。


    6.关闭连接,释放资源。

    如果是使用EntityUtils来处理实体的使用    EntityUtils.consume(entity)来释放资源,可以看得到该函数源码为:

     public static void consume(final HttpEntity entity) throws IOException {
            if (entity == null) {
                return;
            }
            if (entity.isStreaming()) {
                final InputStream instream = entity.getContent();
                if (instream != null) {
                    instream.close();
                }
            }
    }

    其实还是通过关闭inputStream,然后最后我们再关闭CloseableHttpResponse就可以了

    如果是使用InputStream来处理实体的,释放代码如下

    CloseableHttpClient httpclient = HttpClients.createDefault();
     HttpGet httpget = new HttpGet(“http:// localhost /”);
     CloseableHttpResponse response = httpclient.execute(httpget);
    try{
         HttpEntity entity = response.getEntity();
         if(entity!= null){
             InputStream instream = entity.getContent();
            try{
                 //做一些有用的事情
             } finally {
                 intream.close();
             }}
         }}
     } finally {
         response.close();
     }}

    关闭内容流和关闭响应之间的区别是:前者将尝试通过消耗实体内容来保持底层连接活动,而后者立即关闭并丢弃连接

    至此,一个基本的HttpClient的使用的例子已经成功完成,文章还有很多不足,希望得到大家的批评和指正。

  • 相关阅读:
    docker 容器使用 systemctl 命令报错
    lxml 这个包和openpyxl 起冲突
    解决GPG error: The following signatures couldn't be verified because the public key is not available
    pyinstaller bug
    PyCharm使用技巧及常用快捷键
    python 软件目录规范
    Wpf canvas 绘图 像素对齐
    wpf ListView 隔行 (各行) 显示 不同 背景 颜色
    C# wpf 获取 数字 类型 所占字节数
    Mybatis-Plus QueryWrapper +sql自定义查询
  • 原文地址:https://www.cnblogs.com/fengli9998/p/6731458.html
Copyright © 2011-2022 走看看