Scrapy处理200-300范围之外的响应代码 - 走看看

zoukankan html css js c++ java

Scrapy处理200-300范围之外的响应代码
HttpErrorMiddleware

类scrapy.spidermiddlewares.httperror.HttpErrorMiddleware

过滤掉不成功（错误）的HTTP响应，以便蜘蛛不必处理它们，这些（大多数时候）会产生开销，消耗更多资源，并使蜘蛛逻辑更复杂。

根据HTTP标准，成功的响应是那些状态代码在200-300范围内的响应。

如果您仍希望处理该范围之外的响应代码，则可以使用handle_httpstatus_listspider属性或HTTPERROR_ALLOWED_CODES设置指定spider能够处理的响应代码。

例如，如果您希望蜘蛛处理404响应，您可以执行以下操作：

class MySpider(CrawlSpider):

handle_httpstatus_list = [404]
即在settings中增加HTTPERROR_ALLOWED_CODES = [403]， HTTPERROR_ALLOWED_CODES默认是[]
所述handle_httpstatus_list的键Request.meta也可以被用于指定的响应代码，以允许在每个请求基础。您还可以设置meta键handle_httpstatus_all 来True，如果你想以允许请求的任何响应代码。

但请记住，处理非200响应通常是一个坏主意，除非你真的知道你在做什么。
查看全文

相关阅读:
Juniper常用命令
 jenkins编译代码git脚本报错
 sqlserver服务器常用的性能计数器
 C语言位操作
 【转】接口技术
 【转】带参数的主函数
 进程与线程的区别和联系
 【转】进程与线程的一个简单解释
 【转】什么是堆和栈，它们在哪儿？
【转】话说C语言const用法

原文地址：https://www.cnblogs.com/ltn26/p/10973442.html

Copyright © 2011-2022 走看看