4.获取响应状态Status信息、获取状态码Status Code
一般服务器的响应状态有以下几种:
200 正常
400 未找到页面
403 拒绝
500 服务器错误
比如我们请求bootstrap中文网,
我们现在代码中获取状态码:
public class Demo { public static void main(String[] args) throws Exception { CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例 HttpGet httpGet=new HttpGet("http://www.bootcss.com"); //2、创建请求 httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0"); CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行 HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体 System.out.println(closeableHttpResponse.getStatusLine()); //获取状态码 closeableHttpResponse.close(); closeableHttpClient.close(); } }
运行结果:HTTP/1.1 200 OK
接下来我们访问一个不存在的页面:
HttpGet httpGet=new HttpGet("http://www.huimsoft.com/x/x.html");
运行结果:HTTP/1.1 404 Not Found
5.HttpClient请求服务器图片
我们先引入一个IO流相关的Jar包,
从apache下载
之后引入项目
我们将请求的图片保存在本地磁盘
package com.zhi.httpClient3; import java.io.File; import java.io.InputStream; import org.apache.commons.io.FileUtils; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; public class Demo { public static void main(String[] args) throws Exception { CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例 HttpGet httpGet=new HttpGet("http://static.bootcss.com/www/assets/img/codeguide.png?1505127079951"); //2、创建请求 CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行 HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体 if(httpEntity!=null){ System.out.println("ContentType:"+httpEntity.getContentType().getValue()); InputStream inputStream=httpEntity.getContent(); FileUtils.copyToFile(inputStream, new File("D://xxx.png")); //将图片保存在本次磁盘D盘,命名为xxx.png } closeableHttpResponse.close(); closeableHttpClient.close(); } }
运行后,D盘里会增加一个图片文件。
同理,jpg和gif也可以进行抓取后保存在本地。
6.使用代理IP、高匿IP、连接失败
我们使用代理IP就是因为某些站点会屏蔽我们的IP,所以我们要动态的更换代理IP。
其中我们首先选择国内的IP,国外的一般都比较慢,其次不要选择如{新疆乌鲁木齐}等这样的偏远地区,尽量选用一二线城市的IP
关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理
1、透明代理(Transparent Proxy)
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP
透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。
2、匿名代理(Anonymous Proxy)
REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP
匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。
3、混淆代理(Distorting Proxies)
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Random IP address
与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真。
4、高匿代理(Elite proxy或High Anonymity Proxy)
REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined
可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。
一般我们使用高匿的代理IP。
public class Demo { public static void main(String[] args) throws Exception { CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例 HttpGet httpGet=new HttpGet("http://www.bootcss.com/"); //2、创建实例 HttpHost proxy=new HttpHost("114.219.61.82", 8118); RequestConfig config=RequestConfig.custom().setProxy(proxy).build(); httpGet.setConfig(config); CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行 HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体 //System.out.println(httpEntity.toString()); System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //获取网页内容 closeableHttpResponse.close(); closeableHttpClient.close(); } }
加入IP失效了,或者我们写错了端口号,
那么会输出连接失败信息
7.连接超时(connect timed out)和读取超时(Read timed out)
设置连接超时和读取超时方法:
RequestConfig config=RequestConfig.custom() .setConnectTimeout(10000) // 设置连接超时时间 10秒钟 .setSocketTimeout(10000) // 设置读取超时时间10秒钟 .build();
HttpClient连接时间
所谓连接的时候
是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,
理论上是距离越短越快,线路越通畅越快,但是由于路由复杂交错,往往连接上的时间都不固定,运气不好连不上,
HttpClient的默认连接时间,默认可能是1分钟,假如超过1分钟 过一会继续尝试连接,这样会有一个问题 假如遇到一个url老是连不上,会影响其他线程的线程进去,
所以我们有必要进行特殊设置,比如设置10秒钟 假如10秒钟没有连接上 我们就报错,这样我们就可以进行业务上的处理,
比如我们业务上控制 过会再连接试试看。并且这个特殊url写到log4j日志里去。方便管理员查看。
HttpClient读取时间
所谓读取的时间 是HttpClient已经连接到了目标服务器,然后进行内容数据的获取,一般情况 读取数据都是很快速的,
但是假如读取的数据量大,或者是目标服务器本身的问题(比如读取数据库慢,并发量大等...)也会影响读取时间。
我们还是需要来特殊设置下,比如设置10秒钟 假如10秒钟还没读取完,就报错,同上,我们可以业务上处理。