python爬虫代理与反爬虫战略

zoukankan html css js c++ java

python爬虫代理与反爬虫战略

做网络爬虫的当然期待能爬取的数据信息尽可能多一点，尽量高效一些，随后好做分析，获得自身所需要的;而做为网站主当然期待自身的网站能够正常运行，自己的劳动成果不被他人窃取。因此，网络爬虫与反爬虫的战争就开始了!

一、IP活动出现异常

网站主能够利用网站流量统计看得出一些异常浏览，例如相同IP地址推送了越来越多相近的请求，相同IP浏览的速度反人类，那么网站主便会作出反击。

1、浏览速率限定

2、浏览频繁出现验码

3、限定此IP浏览时长

反爬建议：选择代理IP，减少单IP访问频率和次数。

选择HTTP代理进行简单提取ip操作介绍

1、根据需要选择IP类型及相关参数后，点击【提取代理ip-选择提取类型-生成API链接-打开链接】并复制提取的代理

2、可以使用打开360安全浏览器，并点击【打开菜单-工具-代理服务器-代理服务器设置】

3、粘贴提取的代理IP地址至代理服务器列表，即完成设置

二、注册和登录

越来越多网站或是论坛都有限定，必须注册登录了才可以浏览某些版块，可是也会避免批量注册和登录，例如注册需要Email验证或是手机验证，需要利用推送的邮件链接或是短信验证码来解锁账户，而且具备唯一性;注册和登录时还需要填写复杂的验码等等。

反爬建议：批量注册或是选择账户，仿真模拟登录，减少频率。

三、采用验码

验码能够有效性地阻拦网络爬虫，但也会对真正的用户造成不太好的体验，例如浏览了几个页面就弹出来验码，这是很不友好的。

四、文本转图片

一些网站将文本转变成图片来显示，为此来阻拦网络爬虫，这类方法能够阻拦简单的网络爬虫获取文本，但针对一些屏幕阅读器来说很不友好，例如在电脑上能够看清楚图片中的文本，但在移动手机端看就特别模糊了。

反爬建议：采用OCR图片识别技术。

HTTP代理带的应用为互联网大数据的发展壮大提供一定的便捷形式，能够节约许多的时长，在应用爬虫的情况下应当留意网站的反爬虫机制，假如现阶段应用的ip地址受限制，能够换个新的ip地址，确保爬虫的顺利开展。

查看全文

相关阅读:
分布式机器学习：算法、理论与实践——【1】
LLVM Cookbook
【前端】Webpack 进阶
 Noip2015 运输计划树上差分二分答案
 bzoj 2259: [Oibh]新型计算机最短路建模
 888E
[ZJOI2012]旅游对偶图树的直径
 [HAOI2007]理想的正方形单调队列暴力
 bzoj1457: 棋盘游戏 SG函数 Nim
Bomb HDU

原文地址：https://www.cnblogs.com/jiguangdongtaiip/p/12924251.html