scrapy爬取效率提升配置 - 走看看

zoukankan html css js c++ java

scrapy爬取效率提升配置

增加并发：
　　默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
　　在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’

禁止cookie：
　　如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
　　对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

减少下载超时：
　　如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

查看全文

相关阅读:
使用dom4j 解析xml
xml schema 建立xml文档
 xml dtd 约束建立xml文档
 DBCP 连接池的使用
 c++面向过程和面向对象-C++编译器是如何管理类和对象的
 c++读取文本文件
 一个范围的两个数进行数位的累加，实现对两个数num1和num2的数位和相加
 C++批量注释代码段取消注释代码段快捷键
 利用MATLAB截取一张复杂图片中想要的区域
 python学习之路系列

原文地址：https://www.cnblogs.com/open-yang/p/11330108.html

热门文章
检查金币
 去掉双斜杠注释
 凯撒密码
 问题
 笔记
 service $cacheFactory
ServletContext
sax 解析xml
service $animate
java 反射

Copyright © 2011-2022 走看看