scrapy 基础组件专题（二）：下载中间件

zoukankan html css js c++ java

scrapy 基础组件专题（二）：下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。

1.激活Downloader Middleware

要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置中。该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。像下面这样
```
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.CustomDownloaderMiddleware': 543,
}
```
DOWNLOADER_MIDDLEWARES 设置会与Scrapy定义的 DOWNLOADER_MIDDLEWARES_BASE 设置合并(但不是覆盖)，而后根据顺序(order)进行排序，最后得到启用中间件的有序列表: 第一个中间件是最靠近引擎的，最后一个中间件是最靠近下载器的。

关于如何分配中间件的顺序settings里面的Scrapy默认BASE设置，而后根据你想要放置中间件的位置选择一个值。由于每个中间件执行不同的动作，你的中间件可能会依赖于之前(或者之后)执行的中间件，因此顺序是很重要的。

如果你想禁止内置的(在 DOWNLOADER_MIDDLEWARES_BASE 中设置并默认启用的)中间件，你必须在项目的 DOWNLOADER_MIDDLEWARES 设置中定义该中间件，并将其值赋为 None 。例如，如果您想要关闭user-agent中间件:
```
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.CustomDownloaderMiddleware': 543,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
```
2.自定义Downloader Middleware

如果你想自定义一个属于你的下载器中间件，只需要编写一个下载器中间件类，继承自scrapy.downloadermiddlewares.DownloaderMiddleware,而后在里面重写以下的几个方法。
- process_request(request, spider)
  
  当每个request通过下载中间件时，该方法被调用。
  
  process_request() 必须返回其中之一: 返回 None 、返回一个 Response 对象、返回一个 Request 对象或raise IgnoreRequest 。
  
  如果其返回 None ，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数(download handler)被调用，该request被执行(其response被下载)。
  
  如果其返回 Response 对象，Scrapy将不会调用任何其他的 process_request() 或 process_exception() 方法，或相应地下载函数；其将返回该response。已安装的中间件的 process_response() 方法则会在每个response返回时被调用。
  
  如果其返回 Request 对象，Scrapy则停止调用 process_request方法并重新调度返回的request。当新返回的request被执行后，相应地中间件链将会根据下载的response被调用。
  
  如果其raise一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
  
  参数:
  request(Request 对象)–处理的request
  spider(Spider 对象)–该request对应的spider
- process_response(request, response, spider)
  
  process_request() 必须返回以下之一: 返回一个 Response 对象、返回一个 Request 对象或raise一个 IgnoreRequest 异常。
  
  如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。
  
  如果其返回一个 Request 对象，则中间件链停止，返回的request会被重新调度下载。处理类似于 process_request() 返回request所做的那样。
  
  如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
  
  参数:
  request (Request 对象) – response所对应的request
  response (Response 对象) – 被处理的response
  spider (Spider 对象) – response所对应的spider
- process_exception(request, exception, spider)
  
  当下载处理器(download handler)或 process_request() (下载中间件)抛出异常(包括IgnoreRequest异常)时，Scrapy调用 process_exception() 。
  
  process_exception() 应该返回以下之一: 返回 None 、一个 Response 对象、或者一个 Request 对象。
  
  如果其返回 None ，Scrapy将会继续处理该异常，接着调用已安装的其他中间件的 process_exception() 方法，直到所有中间件都被调用完毕，则调用默认的异常处理。
  
  如果其返回一个 Response 对象，则已安装的中间件链的 process_response() 方法被调用。Scrapy将不会调用任何其他中间件的 process_exception() 方法。
  
  如果其返回一个 Request 对象，则返回的request将会被重新调用下载。这将停止中间件的 process_exception() 方法执行，就如返回一个response的那样。
  
  参数:
  request (是 Request 对象) – 产生异常的request
  exception (Exception 对象) – 抛出的异常
  spider (Spider 对象) – request对应的spider
- 自定义实例
import random import base64 import six def to_bytes(text, encoding=None, errors='strict'): """Return the binary representation of `text`. If `text` is already a bytes object, return it as-is.""" if isinstance(text, bytes): return text if not isinstance(text, six.string_types): raise TypeError('to_bytes must receive a unicode, str or bytes ' 'object, got %s' % type(text).__name__) if encoding is None: encoding = 'utf-8' return text.encode(encoding, errors) class MyProxyDownloaderMiddleware(object): def process_request(self, request, spider): proxy_list = [ {'ip_port': '111.11.228.75:80', 'user_pass': 'xxx:123'}, {'ip_port': '120.198.243.22:80', 'user_pass': ''}, {'ip_port': '111.8.60.9:8123', 'user_pass': ''}, {'ip_port': '101.71.27.120:80', 'user_pass': ''}, {'ip_port': '122.96.59.104:80', 'user_pass': ''}, {'ip_port': '122.224.249.122:8088', 'user_pass': ''}, ] proxy = random.choice(proxy_list) if proxy['user_pass'] is not None: request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port']) encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass'])) request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass) else: request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port']) 配置： DOWNLOADER_MIDDLEWARES = { # 'xiaohan.middlewares.MyProxyDownloaderMiddleware': 543, }
3.内置Downloader Middleware介绍
查看全文

相关阅读:
hdu 4963（中途相遇法）
UVALive 6869（后缀数组）
AC自动机小结
 poj 2409+2154+2888（Burnside定理）
HUST 1569(Burnside定理+容斥+数位dp+矩阵快速幂)
bunoj 34990（hash）
CSU 1506（最小费用最大流）
CF 514C（hash）
lightoj 1297（三分）
lightoj 1179（线段树）

原文地址：https://www.cnblogs.com/qiu-hua/p/12638339.html

scrapy 基础组件专题（二）：下载中间件

1.激活Downloader Middleware

2.自定义Downloader Middleware

process_request(request, spider)

process_response(request, response, spider)

process_exception(request, exception, spider)

3.内置Downloader Middleware介绍