zoukankan      html  css  js  c++  java
  • spider爬站极度损耗站点流量

    或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。

    这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言,如果蜘蛛去爬得很频繁,就会造成很多流量 资源的浪费,而且很多小站都是有IIS限制的,这样的情况发生后对于用户体验也会产生很大的影响,因为网站老久打不开。

          相信很多站长都有遇到过这样的问题,一般产生这样的原因有下面几种原因。

          一、其他程序冒充Baiduspider程序去抓取网站内容。
         
          二、网站程序产生的漏洞,产生了很多无穷尽的url,被百度Baiduspider当成了很多新内容而频繁的抓取。

          出现的这些问题,都有哪些解决方法呢?
    对于出现的第一种情况,建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。

          对于出现的第二种情况,建议分析网站的访问日志,看看 Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内 容。

          当网站经常访问速度慢,但流量却不是很高的时候,我们可以从蜘蛛的访问日志下手,分析下Baiduspider留下的痕迹,或许问题就出在这里。
         

          但是,现在网站的程序都是很完善的了,一般以第一种原因居多。

  • 相关阅读:
    摄像头bug查找工作总结
    高通camera结构(摄像头基础介绍)
    什么是滤波器,滤波器是干嘛用的,IIR和FIR滤波器又是什么?(回答请简洁,别浪费大家时间)
    详解摄像头各个引脚的作用关系
    Camera帧率和AE的关系
    CMOS Sensor的调试经验分享
    VSYNC与HSYNC与PCLK与什么有关系
    PCLK怎么获得?
    高清摄像头MIPI接口与ARM处理器的连接
    常用正则
  • 原文地址:https://www.cnblogs.com/ruiy/p/rate.html
Copyright © 2011-2022 走看看