zoukankan      html  css  js  c++  java
  • HttpClient配置及运用(二)

    4.获取响应状态Status信息、获取状态码Status Code

    一般服务器的响应状态有以下几种:

    200 正常

    400 未找到页面

    403 拒绝

    500 服务器错误

    比如我们请求bootstrap中文网,

    我们现在代码中获取状态码:

    public class Demo {
        public static void main(String[] args) throws Exception {
            CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
            HttpGet httpGet=new HttpGet("http://www.bootcss.com"); //2、创建请求
             
            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0");
             
            CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
            HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
             
            System.out.println(closeableHttpResponse.getStatusLine()); //获取状态码
             
            closeableHttpResponse.close();
            closeableHttpClient.close();
        }
    }

    运行结果:HTTP/1.1 200 OK

    接下来我们访问一个不存在的页面:

    HttpGet httpGet=new HttpGet("http://www.huimsoft.com/x/x.html");

    运行结果:HTTP/1.1 404 Not Found

    5.HttpClient请求服务器图片

    我们先引入一个IO流相关的Jar包,

    从apache下载

    之后引入项目

    我们将请求的图片保存在本地磁盘

    package com.zhi.httpClient3;
     
    import java.io.File;
    import java.io.InputStream;
     
    import org.apache.commons.io.FileUtils;
    import org.apache.http.HttpEntity;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
     
    public class Demo {
        public static void main(String[] args) throws Exception {
            CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
            HttpGet httpGet=new HttpGet("http://static.bootcss.com/www/assets/img/codeguide.png?1505127079951"); //2、创建请求
             
            CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
            HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
             
            if(httpEntity!=null){
                System.out.println("ContentType:"+httpEntity.getContentType().getValue());
                InputStream inputStream=httpEntity.getContent();
                FileUtils.copyToFile(inputStream, new File("D://xxx.png")); //将图片保存在本次磁盘D盘,命名为xxx.png
            }
                 
            closeableHttpResponse.close();
            closeableHttpClient.close();
        }
    }

    运行后,D盘里会增加一个图片文件。

    同理,jpg和gif也可以进行抓取后保存在本地。

    6.使用代理IP、高匿IP、连接失败

    我们使用代理IP就是因为某些站点会屏蔽我们的IP,所以我们要动态的更换代理IP。

    其中我们首先选择国内的IP,国外的一般都比较慢,其次不要选择如{新疆乌鲁木齐}等这样的偏远地区,尽量选用一二线城市的IP

    关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理

    1、透明代理(Transparent Proxy)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = Proxy IP

    HTTP_X_FORWARDED_FOR = Your IP

    透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。

    2、匿名代理(Anonymous Proxy)

    REMOTE_ADDR = proxy IP

    HTTP_VIA = proxy IP

    HTTP_X_FORWARDED_FOR = proxy IP

    匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。

    3、混淆代理(Distorting Proxies)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = Proxy IP

    HTTP_X_FORWARDED_FOR = Random IP address

    与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真。

    4、高匿代理(Elite proxy或High Anonymity Proxy)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = not determined

    HTTP_X_FORWARDED_FOR = not determined

    可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。

    一般我们使用高匿的代理IP。

    public class Demo {
        public static void main(String[] args) throws Exception {
            CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
            HttpGet httpGet=new HttpGet("http://www.bootcss.com/"); //2、创建实例
             
            HttpHost proxy=new HttpHost("114.219.61.82", 8118);
            RequestConfig config=RequestConfig.custom().setProxy(proxy).build();
            httpGet.setConfig(config);
             
            CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
            HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
             
            //System.out.println(httpEntity.toString());
            System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //获取网页内容
             
            closeableHttpResponse.close();
            closeableHttpClient.close();
        }
    }

    加入IP失效了,或者我们写错了端口号,

    那么会输出连接失败信息

    7.连接超时(connect timed out)和读取超时(Read timed out)

    设置连接超时和读取超时方法:

    RequestConfig config=RequestConfig.custom()
                    .setConnectTimeout(10000) // 设置连接超时时间 10秒钟
                    .setSocketTimeout(10000) // 设置读取超时时间10秒钟
                    .build();

    HttpClient连接时间

    所谓连接的时候

    是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,

    理论上是距离越短越快,线路越通畅越快,但是由于路由复杂交错,往往连接上的时间都不固定,运气不好连不上,

    HttpClient的默认连接时间,默认可能是1分钟,假如超过1分钟 过一会继续尝试连接,这样会有一个问题 假如遇到一个url老是连不上,会影响其他线程的线程进去,

    所以我们有必要进行特殊设置,比如设置10秒钟 假如10秒钟没有连接上 我们就报错,这样我们就可以进行业务上的处理,

    比如我们业务上控制 过会再连接试试看。并且这个特殊url写到log4j日志里去。方便管理员查看。

    HttpClient读取时间

    所谓读取的时间 是HttpClient已经连接到了目标服务器,然后进行内容数据的获取,一般情况 读取数据都是很快速的,

    但是假如读取的数据量大,或者是目标服务器本身的问题(比如读取数据库慢,并发量大等...)也会影响读取时间。

    我们还是需要来特殊设置下,比如设置10秒钟 假如10秒钟还没读取完,就报错,同上,我们可以业务上处理。

  • 相关阅读:
    mybatis 缓存
    mybatis 动态sql
    新手必读:游戏编程入门指南
    22条常用JavaScript开发小技巧
    Unity即将全面升级 实时3D技术及大场景编辑未来可期!
    10分钟学会Python基础知识
    如何用UE4制作非写实草浪
    最适合设计师的前端学习路径有哪些?
    超全面的C++游戏开发面试问题总结
    如何学习大型项目的源码?虚幻引擎源码学习思路分享
  • 原文地址:https://www.cnblogs.com/FrankLiner/p/7760829.html
Copyright © 2011-2022 走看看