zoukankan      html  css  js  c++  java
  • 提升Scrapy框架爬取数据效率的五种方式

    1、增加并发线程开启数量

      settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加;

    2、降低日志级别

      运行scrapy时会产生大量日志占用CPU,为减少CPU使用率,可修改log输出级别

      settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;

    3、禁止cookie

      scrapy默认自动保存cookie,占用CPU,如果不是真的需要cookie,可设置为不保存cookie,以减少CPU使用率,

      settings配置文件中:COOKIES_ENABLED = False 解开注释

    4、禁止请求重试:

      对于失败的请求会重新发送,则会减慢爬取速度,因此可以在对丢失少量数据也不影响时,禁止重试,

      settings配置文件中加:RETRY_ENABLED = False ;

    5、减少下载超时:

      如果对一个非常慢的链接进行爬取,减少下载超时可以让卡住的链接快速被放弃,从而提升效率,

      在settings配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 设置超时时间;

  • 相关阅读:
    spring
    SpringMVC 配置与使用
    基本MVC2模式创建新闻网站
    EL表达式
    JavaBeans介绍
    JSP简介
    Cookie与Session的异同
    过滤器的使用
    session的使用
    最长回文子串
  • 原文地址:https://www.cnblogs.com/jayxuan/p/10840068.html
Copyright © 2011-2022 走看看