多线程访问网站的爬虫的问题

zoukankan html css js c++ java

多线程访问网站的爬虫的问题

自己开发一套配置型爬虫，前2日一直对效率不高有极大疑惑，为什么不高！网速肯定是一方面的原因，但自身程序也肯定是有一方面的原因。

原来是并发请求一个网站惹的祸。

在设计的时候，追求完美，一个进程（主进程）里会启动多个子进程（每个配置的网站的抓取进程），每个子进程可配置多个线程，想法就这样。所有功能都实现以后，发现有的网站很爱给我返回错误页面，而有的网站正常。

于是检查原因，对经常出现错误的网站又进行断点测试，又在服务器上新配置特殊抓取，总也发现不到错误，一切正常啊，为什么在生产环境就错误。

查日志对方服务器返回503错误。各种403，404的错误，爬虫开发我早已不信这些个返回码了，很多人喜欢欺骗开发爬虫的人，谁让开发爬虫的人也欺骗他呢(玩user-agent之类的把戏)。所以这些返回码除了正常的意外，400以上的都不信。原因可能是我访问过于频繁，封了，也可能没封，而是同时以一个IP地址提交了2个访问请求，对方有此验证。

验证。

1.是否被封

　　wget一个用程序访问出错的地址，可以访问，当前IP可以使用。

2.是否并发

　　测试是因为对方服务器有同一IP地址访问或者给对方压力（本爬虫为分布式爬虫，多台机器做下载端）导致对方服务器资源情况过大等原因。

　　将所有当前下载端线程数都该为1。

结果：

　　情况出乎我的意料，以此速度能满足产品需求。

问题：请有知道的同学告诉下nginx/1.0.4服务器或者apache webservice服务是否有相关机制，抑或是自己对方自己写的一个功能扩展.

查看全文

相关阅读:
MFC
驱动学习
 Ubuntu下为Apache简单配置SSL的方法(HTTPS的实现)
在linux下helloworld的C程序
 swift安装，linux
gcc,cc,g++,CC的区别
 ldconfig与 /etc/ld.so.conf
ubuntu16.04,mysql5.7重启不成功。Restarting mysql (via systemctl): mysql.serviceJob for mysql.service failed because the control process exited with error code. See "systemctl status mysql.service"
linux .o,.a,.so文件
 zipgateway-2-61-0的安装

原文地址：https://www.cnblogs.com/CLTANG/p/2425496.html