zoukankan      html  css  js  c++  java
  • python爬虫代理与反爬虫战略

    做网络爬虫的当然期待能爬取的数据信息尽可能多一点,尽量高效一些,随后好做分析,获得自身所需要的;而做为网站主当然期待自身的网站能够正常运行,自己的劳动成果不被他人窃取。因此,网络爬虫与反爬虫的战争就开始了!

    一、IP活动出现异常

    网站主能够利用网站流量统计看得出一些异常浏览,例如相同IP地址推送了越来越多相近的请求,相同IP浏览的速度反人类,那么网站主便会作出反击。

    1、浏览速率限定

    2、浏览频繁出现验码

    3、限定此IP浏览时长

    反爬建议:选择代理IP,减少单IP访问频率和次数。

    选择HTTP代理进行简单提取ip操作介绍

    1、根据需要选择IP类型及相关参数后,点击【提取代理ip-选择提取类型-生成API链接-打开链接】并复制提取的代理


    2、可以使用打开360安全浏览器,并点击【打开菜单-工具-代理服务器-代理服务器设置】

    3、粘贴提取的代理IP地址至代理服务器列表,即完成设置

    二、注册和登录

    越来越多网站或是论坛都有限定,必须注册登录了才可以浏览某些版块,可是也会避免批量注册和登录,例如注册需要Email验证或是手机验证,需要利用推送的邮件链接或是短信验证码来解锁账户,而且具备唯一性;注册和登录时还需要填写复杂的验码等等。

    反爬建议:批量注册或是选择账户,仿真模拟登录,减少频率。

    三、采用验码

    验码能够有效性地阻拦网络爬虫,但也会对真正的用户造成不太好的体验,例如浏览了几个页面就弹出来验码,这是很不友好的。


    四、文本转图片

    一些网站将文本转变成图片来显示,为此来阻拦网络爬虫,这类方法能够阻拦简单的网络爬虫获取文本,但针对一些屏幕阅读器来说很不友好,例如在电脑上能够看清楚图片中的文本,但在移动手机端看就特别模糊了。

    反爬建议:采用OCR图片识别技术。

    HTTP代理带的应用为互联网大数据的发展壮大提供一定的便捷形式,能够节约许多的时长,在应用爬虫的情况下应当留意网站的反爬虫机制,假如现阶段应用的ip地址受限制,能够换个新的ip地址,确保爬虫的顺利开展。

  • 相关阅读:
    struts2基础---->自定义拦截器
    struts2基础---->第一个Struts2程序
    Vue基础---->vue-router的使用(一)
    java框架---->zxing框架的使用
    java基础---->java输入输出流
    java基础----->TCP和UDP套接字编程
    JS基础---->js中ajax的使用
    tomcat源码---->request的请求参数分析
    Android Http请求方法汇总
    Android如何通过shareduserid获取系统权限
  • 原文地址:https://www.cnblogs.com/jiguangdongtaiip/p/12924251.html
Copyright © 2011-2022 走看看