zoukankan      html  css  js  c++  java
  • 网络爬客光顾博客园

         这里的网络爬客是指不考虑对目标网站的性能影响,疯狂抓取目标网站内容的软件、网站。
         最近,博客园时常遇到网站性能问题,出现问题时数据库服务器CPU占用为100%。
         今天下午又发生了几次,五点多钟的时候,我跟踪了一下网络爬客的行为。
         网络爬客来自222.68.190.202,UserAgent为Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Maxthon; .NET CLR 1.1.4322)。访问频率大约是3次/秒,访问地址是各个Blog中分类的RSS。虽然这些RSS通过静态文件进行了缓存,但分类的RSS访问量比较小,很多RSS的缓存已经过期,网络爬客这样疯狂地访问不同的RSS,给数据库带来了很大的压力。难怪博客园网站最近常出现性能问题,都是这些网络爬客惹的祸!
         随着网络爬客越来越多,将成为互联网上的祸害,如果没有有效的解决方法,很多网站将为此投入更多的软、硬件成本来保证网站的性能,想到为了这些网络爬客而投入更多成本,实在令人恼火!
         解决这样的问题也不是很难,只要有软件开发商开发出这样的软件产品—反爬客系统,分析网站的访问行为,拒绝网络爬客就行了,目前网络爬客带来的问题还不严重,所以暂时还没出现这样的软件。
         博客园需要先想办法减少这个问题带来的影响,有两种选择:
         1、对网站程序进行性能优化,让网站经得起网络爬客的攻击。
         这虽然能缓解问题,但遇到很疯狂的网络爬客时,问题还会出现。
         2、拒绝网络爬客。
         这就需要记录网站的每次访问,分析网站访问行为,找出网络爬客,但这里要面临两个问题:
        1、这些数据量很大,记录这些数据会增加数据库服务器的负担,对性能会产生影响。
        2、找出网络爬客时,还要筛选出一些有名的搜索引擎,哪个网站也不愿拒绝这些搜索引擎,这也是个技术难题。
        希望有经验的朋友能够提供一些建议,这是很多网站都会面临的问题。
  • 相关阅读:
    [Reinforcement Learning] Cross-entropy Method
    [Deep Learning] 正则化
    [Deep Learning] 常用的Active functions & Optimizers
    [Machine Learning] 浅谈LR算法的Cost Function
    [Deep Learning] 深度学习中消失的梯度
    [Machine Learning] logistic函数和softmax函数
    [Deep Learning] 神经网络基础
    [Machine Learning] Active Learning
    [Machine Learning & Algorithm]CAML机器学习系列2:深入浅出ML之Entropy-Based家族
    [Machine Learning & Algorithm]CAML机器学习系列1:深入浅出ML之Regression家族
  • 原文地址:https://www.cnblogs.com/dudu/p/447434.html
Copyright © 2011-2022 走看看