爬虫之proxy（代理）

zoukankan html css js c++ java

爬虫之proxy（代理）
proxy简介

proxy即为代理，我们爬虫的时候肯定会有频繁访问某一网站的情况，这个时候有些服务器会识别到我们是非正常访问，就会把我们的IP禁掉，这个时候就需要用代理了。

就好比现实生活中，我需要向A借一件东西，但是我跟A是仇人，直接向他借的话他不会借给我，这个时候我就让B帮我像A借，就说他要用，然后B借到东西之后再把东西给我用，这时，B就是我的代理了。

常用的免费代理网站:http://www.goubanjia.com/。

爬虫应该选择什么样的代理？
- 针对不需要用户登录，cookie验证的网站，一般选择动态高匿代理。
- 对于需要用户登录，身份认证的。一般选择静态IP
使用proxy的步骤
1. 设置代理地址
  
  proxy = {'http':'52.187.162.198:3128'}
2. 创建ProxyHeader
  
  proxyHeader = request.ProxyHandler(proxy)
3. 创建Opener
  
  opener = request.build_opener(proxyHeader)
4. 安装Opener
  
  request.install_opener(opener)
示例
from urllib import request # 设置代理地址 proxy = {'http':'52.187.162.198:3128'} # 创建ProxyHeader proxyHeader = request.ProxyHandler(proxy) # 创建Opener opener = request.build_opener(proxyHeader) # 安装Opener request.install_opener(opener) # 然后剩下的就跟正常使用差不多，只不过此时的request已经是绑定了代理之后的request url = 'https://www.taobao.com/' req = request.Request(url) response = request.urlopen(req) print(response.read().decode())
　　
查看全文

相关阅读:
netty源码深度分析
 《深入探索Netty原理及源码分析》文集小结
 Netty 那些事儿 ——— 心跳机制
 CSS实现单行、多行文本溢出显示省略号（…）
测试
 PHP 二维数组根据某个字段排序
 PHP生成图片验证码、点击切换实例
 正确设置网站title、keywords、description（转载）
nginx上支持.htaccess伪静态的配置实例
 百度编辑器Ueditor增加字体的修改方法

原文地址：https://www.cnblogs.com/fu-yong/p/9018930.html

爬虫之proxy（代理）

proxy简介

爬虫应该选择什么样的代理？

使用proxy的步骤

示例