Java开源爬虫框架WebCollector设置代理 - 走看看

zoukankan html css js c++ java

Java开源爬虫框架WebCollector设置代理

WebCollector自带一个Proxys类，通过Proxys.nextRandom()方法可以随机获取加入的代理。

通过Proxys.add(“ip”,”端口号”);添加代理。

如果本机也参与http请求，可用Proxys.addEmpty()方法将本机加入。

覆盖Crawler的getResponse()方法，即可自定义使用随机代理的http请求：

代码中的proxies并不是一个自带的对象，用户需要在继承Crawler时，定义一个成员变量：

比如：private Proxys proxies = new Proxys();

并且需要在构造函数或其他地方，向Proxys中添加代理服务器地址。

当然你可以在构造方法里设置多个ip,就可以实现动态代理ip：

比如：

这时候getResponse也要判断ip是否链接上：

WebCollector框架的jar包pom文件：

<dependency>

<groupId>cn.edu.hfut.dmic.webcollector</groupId>

<artifactId>WebCollector</artifactId>

<version>2.71</version>

</dependency>

查看全文

相关阅读:
Animation用法
 英文口语及书写常用句型汇总1
Jqplot使用总结之二(双Y轴)
SqlServer扩展存储过程
 SQL Server常见基础操作
 C# 利用ITextSharp导出PDF文件
 go常量
 ARP协议
 go数组
 go基本数据类型

原文地址：https://www.cnblogs.com/xianshen/p/12742342.html

Copyright © 2011-2022 走看看