网络爬客光顾博客园

zoukankan html css js c++ java

网络爬客光顾博客园

     这里的网络爬客是指不考虑对目标网站的性能影响，疯狂抓取目标网站内容的软件、网站。
     最近，博客园时常遇到网站性能问题，出现问题时数据库服务器CPU占用为100%。
     今天下午又发生了几次，五点多钟的时候，我跟踪了一下网络爬客的行为。
     网络爬客来自222.68.190.202，UserAgent为Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Maxthon; .NET CLR 1.1.4322)。访问频率大约是3次/秒，访问地址是各个Blog中分类的RSS。虽然这些RSS通过静态文件进行了缓存，但分类的RSS访问量比较小，很多RSS的缓存已经过期，网络爬客这样疯狂地访问不同的RSS，给数据库带来了很大的压力。难怪博客园网站最近常出现性能问题，都是这些网络爬客惹的祸!
     随着网络爬客越来越多，将成为互联网上的祸害，如果没有有效的解决方法，很多网站将为此投入更多的软、硬件成本来保证网站的性能，想到为了这些网络爬客而投入更多成本，实在令人恼火!
     解决这样的问题也不是很难，只要有软件开发商开发出这样的软件产品—反爬客系统，分析网站的访问行为，拒绝网络爬客就行了，目前网络爬客带来的问题还不严重，所以暂时还没出现这样的软件。
     博客园需要先想办法减少这个问题带来的影响，有两种选择：
     1、对网站程序进行性能优化，让网站经得起网络爬客的攻击。
     这虽然能缓解问题，但遇到很疯狂的网络爬客时，问题还会出现。
     2、拒绝网络爬客。
     这就需要记录网站的每次访问，分析网站访问行为，找出网络爬客，但这里要面临两个问题：
    1、这些数据量很大，记录这些数据会增加数据库服务器的负担，对性能会产生影响。
    2、找出网络爬客时，还要筛选出一些有名的搜索引擎，哪个网站也不愿拒绝这些搜索引擎，这也是个技术难题。
    希望有经验的朋友能够提供一些建议，这是很多网站都会面临的问题。

查看全文

相关阅读:
原生Python机器学习分类之一Knn算法
 Java可视化文件(夹)加密解密压缩解压
 基于图搜索技术的八数码问题求解C++
遗传算法解决TSP问题
 简单dp
并查集
 KMP算法
 快速迭代
 为什么vs2017在代码右键上没有vs2013（第一个图）上实现抽象类这个选项？
关于C#面向对象中的查看类图（没有此按键的问题）的解决方法 The solution to view class diagrams in C # object-oriented (without this key)

原文地址：https://www.cnblogs.com/dudu/p/447434.html