zoukankan      html  css  js  c++  java
  • (四)HttpClient 使用代理 IP

    第一节: HttpClient 使用代理 IP

    在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。

    这时候,代理IP就派上用场了。

    关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理

    1、透明代理(Transparent Proxy)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = Proxy IP

    HTTP_X_FORWARDED_FOR = Your IP

    透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。

    2、匿名代理(Anonymous Proxy)

    REMOTE_ADDR = proxy IP

    HTTP_VIA = proxy IP

    HTTP_X_FORWARDED_FOR = proxy IP

    匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。

    还有一种比纯匿名代理更先进一点的:混淆代理,见下节。

    3、混淆代理(Distorting Proxies)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = Proxy IP

    HTTP_X_FORWARDED_FOR = Random IP address

    如上,与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真:-)

    4、高匿代理(Elite proxy或High Anonymity Proxy)

    REMOTE_ADDR = Proxy IP

    HTTP_VIA = not determined

    HTTP_X_FORWARDED_FOR = not determined

    可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。

    一般我们搞爬虫 用的都是 高匿的代理IP;

    那代理IP 从哪里搞呢 很简单  百度一下,你就知道 一大堆代理IP站点。  一般都会给出一些免费的,但是花点钱搞收费接口更加方便;

    比如 http://www.66ip.cn/

    httpClient使用代理IP代码:

     1 package com.javaxk.httpclient.chap04;
     2 
     3 import org.apache.http.HttpEntity;
     4 import org.apache.http.HttpHost;
     5 import org.apache.http.client.config.RequestConfig;
     6 import org.apache.http.client.methods.CloseableHttpResponse;
     7 import org.apache.http.client.methods.HttpGet;
     8 import org.apache.http.impl.client.CloseableHttpClient;
     9 import org.apache.http.impl.client.HttpClients;
    10 import org.apache.http.util.EntityUtils;
    11 
    12 public class Demo1 {
    13     
    14     public static void main(String[] args)throws Exception {
    15         CloseableHttpClient httpClient=HttpClients.createDefault(); // 创建httpClient实例
    16         HttpGet httpGet=new HttpGet("https://www.taobao.com/"); // 创建httpget实例
    17         HttpHost proxy=new HttpHost("178.32.213.128", 80);    
    18         RequestConfig requestConfig=RequestConfig.custom().setProxy(proxy).build();    //代理ip
    19         httpGet.setConfig(requestConfig);    //设置代理ip
    20         httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
    21         CloseableHttpResponse response=httpClient.execute(httpGet); // 执行http get请求
    22         HttpEntity entity=response.getEntity(); // 获取返回实体
    23         System.out.println("网页内容:"+EntityUtils.toString(entity, "utf-8")); // 获取网页内容
    24         response.close(); // response关闭
    25         httpClient.close(); // httpClient关闭
    26     }
    27 
    28 }

    建议大家用国内代理IP 以及主干道网络大城市的代理IP 访问速度快;

  • 相关阅读:
    vue证明题二,让vue跑起来
    vue证明题一,vue全家桶的构成
    Vue证明题
    layDay日期格式不合法报错解决
    【ASP.NET Core】运行原理(3):认证
    【ASP.NET Core】运行原理(2):启动WebHost
    【ASP.NET Core】运行原理(1):创建WebHost
    [Open Source] .NET 基于StackExchange.Redis的扩展
    [高并发]EntityFramework之高性能扩展
    [Tool] Git 使用 与 Git Flow
  • 原文地址:https://www.cnblogs.com/wishwzp/p/7059045.html
Copyright © 2011-2022 走看看