zoukankan      html  css  js  c++  java
  • python爬虫代理与反爬虫战略

    做网络爬虫的当然期待能爬取的数据信息尽可能多一点,尽量高效一些,随后好做分析,获得自身所需要的;而做为网站主当然期待自身的网站能够正常运行,自己的劳动成果不被他人窃取。因此,网络爬虫与反爬虫的战争就开始了!

    一、IP活动出现异常

    网站主能够利用网站流量统计看得出一些异常浏览,例如相同IP地址推送了越来越多相近的请求,相同IP浏览的速度反人类,那么网站主便会作出反击。

    1、浏览速率限定

    2、浏览频繁出现验码

    3、限定此IP浏览时长

    反爬建议:选择代理IP,减少单IP访问频率和次数。

    选择HTTP代理进行简单提取ip操作介绍

    1、根据需要选择IP类型及相关参数后,点击【提取代理ip-选择提取类型-生成API链接-打开链接】并复制提取的代理


    2、可以使用打开360安全浏览器,并点击【打开菜单-工具-代理服务器-代理服务器设置】

    3、粘贴提取的代理IP地址至代理服务器列表,即完成设置

    二、注册和登录

    越来越多网站或是论坛都有限定,必须注册登录了才可以浏览某些版块,可是也会避免批量注册和登录,例如注册需要Email验证或是手机验证,需要利用推送的邮件链接或是短信验证码来解锁账户,而且具备唯一性;注册和登录时还需要填写复杂的验码等等。

    反爬建议:批量注册或是选择账户,仿真模拟登录,减少频率。

    三、采用验码

    验码能够有效性地阻拦网络爬虫,但也会对真正的用户造成不太好的体验,例如浏览了几个页面就弹出来验码,这是很不友好的。


    四、文本转图片

    一些网站将文本转变成图片来显示,为此来阻拦网络爬虫,这类方法能够阻拦简单的网络爬虫获取文本,但针对一些屏幕阅读器来说很不友好,例如在电脑上能够看清楚图片中的文本,但在移动手机端看就特别模糊了。

    反爬建议:采用OCR图片识别技术。

    HTTP代理带的应用为互联网大数据的发展壮大提供一定的便捷形式,能够节约许多的时长,在应用爬虫的情况下应当留意网站的反爬虫机制,假如现阶段应用的ip地址受限制,能够换个新的ip地址,确保爬虫的顺利开展。

  • 相关阅读:
    BlocksKit block从配角到主角—oc通往函数式编程之路--oc rx化?
    使用NSProxy和NSObject设计代理类的差异
    面向发布(部署)编程—热修复、动态库与补丁
    解释器就是虚拟机
    动态和多态的本质是对不确定性的解释机制
    c+多态的本质:编译器维护了类型信息同时插入了解释执行机制
    ios Aspects面向切面沉思录—面向结构编程—面向修改记录编程—面向运行时结构编程—元编程?
    知行合一的方法论
    面向运行时结构信息编程
    c++、oc、swift初步评价
  • 原文地址:https://www.cnblogs.com/jiguangdongtaiip/p/12924251.html
Copyright © 2011-2022 走看看