zoukankan      html  css  js  c++  java
  • Java开源爬虫框架WebCollector设置代理

    WebCollector自带一个Proxys类,通过Proxys.nextRandom()方法可以随机获取加入的代理。

    通过Proxys.add(“ip”,”端口号”);添加代理。

    如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。

    覆盖Crawler的getResponse()方法,即可自定义使用随机代理的http请求:

     

    代码中的proxies并不是一个自带的对象,用户需要在继承Crawler时,定义一个成员变量:

    比如:private Proxys proxies = new Proxys();

    并且需要在构造函数或其他地方,向Proxys中添加代理服务器地址。

    当然你可以在构造方法里设置多个ip,就可以实现动态代理ip:

    比如:

    这时候getResponse也要判断ip是否链接上:

     

    WebCollector框架的jar包pom文件:

    <dependency>

        <groupId>cn.edu.hfut.dmic.webcollector</groupId>

          <artifactId>WebCollector</artifactId>

          <version>2.71</version>

    </dependency>

  • 相关阅读:
    Animation用法
    英文口语及书写常用句型汇总1
    Jqplot使用总结之二(双Y轴)
    SqlServer扩展存储过程
    SQL Server常见基础操作
    C# 利用ITextSharp导出PDF文件
    go常量
    ARP协议
    go数组
    go基本数据类型
  • 原文地址:https://www.cnblogs.com/xianshen/p/12742342.html
Copyright © 2011-2022 走看看