十、scrapy中的Downloader Middlewares

zoukankan html css js c++ java

十、scrapy中的Downloader Middlewares
1、通常防止爬虫被反主要有以下几个策略

　　（1）动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）

　　（2）禁用Cookies（即不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）（通过COOKIES_ENABLED控制CookiesMiddleware开启或关闭）

　　（3）设置延迟下载（防止访问过于频繁，设置为2秒或更高）

　　（4）Google Cache和Baidu Cache：如果可能，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据

　　（5）使用IP地址池：VPN和代理IP，现在大部分网站都是根据IP来禁止爬虫的

　　（6）使用Crawlera（专门用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出

　　　　参考代码：

　　　　```

　　　　DOWNLOADER_MIDDLEWARES = {

　　　　　　'scrapy_crawlera.CrawleraMiddleware':600

　　　　}

　　　　CRAWLERA_ENABLED=True

　　　　CRAWLEAR_USER="registered/bought的UserKey"

　　　　CRAWLEAR_PASS="registered/bought的Password"

　　　　```

2、设置下载中间件（Downloader Middlewares）

　　下载中间件是处于引擎（crawler.engine）和下载器（crawler.engine.download()）之间的一层组件，可以有多个下载中间件被加载运行。

　　（1）当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）

　　（2）在下载器完成http请求，传递响应给引擎的过程中，下载中间件可以对响应进行处理（例如进行gzip的解压等）

　　　要激活下载器中间件组件，将其加入到DOWNLOADER_MIDDLEWARES设置中，其设置是一个字典，键为中间件类的路径，值为其中间件的顺序（order）

　　```

　　DOWNLOADER_MIDDLEWARES={

　　　　"mySpider.middlewares.MyDownloaderMiddleware":543,

　　}

　　```

3、编写下载器中间件

　　每个中间件组件是一个定义了以下一个或多个方法的Python类：

　　`class scrapy.contrib.downloadermiddleware.DownloaderMiddleware`

　　3.1 process_request(self,request,spider)

　　　　（1）当每个request通过下载中间件时，该方法被调用

　　　　（2）porcess_request()必须返回以下其中之一：一个None、一个Response对象、一个Request对象或raise IgnoreRequest

　　　　　　1）如果其返回None，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数（download handler）被调用，该request被执行（其response被下载）。

　　　　　　2）如果其返回Response对象，Scrapy将不会调用任何其他的process_request()或process_exception()方法，或相应的下载函数；其将返回该response。已安装的中间件的process_response()方法则会在每个response返回时被调用。

　　　　　　3）如果其返回Request对象，Scrapy则停止调用process_request方法并重新调度返回的request。当新返回的request被执行后，相应的中间件链将会根据下载的response被调用。

　　　　　　4）如果其raise一个IgnoreRequest异常，则安装的下载中间件的process_exception()方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录（不同于其他异常那样）

　　　　（3）参数

　　　　　　1）request（Request对象）——处理的request

　　　　　　2）spider（Spider对象）——该request对应的spider

　　3.2 process_response(self,request,response,spider)

　　　　（1）当下载器完成http请求，传递响应给引擎的时候调用

　　　　（2）process_request()必须返回以下其中之一：返回一个Response对象，返回一个Request对象或raise一个IgnoreRequest异常。

　　　　　　1）如果其返回一个Response（可以与传入的response相同，也可以是全新的对象），该response会被在链中的其他中间件的process_response()方法处理。

　　　　　　2）如果其返回一个Request对象，则中间链停止，返回的request会被重新调度下载。处理类似于process_request()返回request所做的那样。

　　　　　　3）如果其抛出一个IgnoreRequest异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录（不同于其他异常那样）。

　　　　（3）参数

　　　　　　1）request（Request对象）——response所对应的request

　　　　　　2）response（Response对象）——被处理的response

　　　　　　3）spider（Spider对象）——response所对应的spider

　　3.3 process_exception(request,exception,spider)

　　　　（1）当下载处理器或process_request()抛出异常，比如IgnoreRequest异常时，Scrapy调用process_exception()

　　　　（2）process_exception()应该返回None,Response对象或者Request对象其中之一

　　　　　　1）如果返回None，Scrapy将会继续处理该异常，接着调用已安装的其他中间件的process_exception()方法，直到所有中间件都被调用完毕，则调用默认的异常处理方法

　　　　　　2）如果返回Response对象，则已安装的中间件链的process_response()方法被调用，scrapy将不会调用任何其他中间间的process_exception()方法

　　　　　　3）如果返回Request对象，则返回的request将会被重新调度下载，这将停止中间件的process_exception()方法执行，类似于返回Response对象的处理。

　　　　（3）参数

　　　　　　1）request(Request对象）：产生异常的Request

　　　　　　2）exception(Exception对象)：抛出的异常

　　　　　　3）spider(Spider对象)：Request对应的Spider

4、案例

　　4.1 编辑middlewares.py文件

　　　　Scrapy代理IP、User-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，在middlewares.py文件中包装所有请求。
import random import base64 from settings import USER_AGENTS from settings import PROXIES # 随机的User-Agent class RandomUserAgent(object): def process_request(self, request, spider): useragent = random.choice(USER_AGENTS) request.headers.setdefault("User-Agent", useragent) class RandomProxy(object): def process_request(self, request, spider): proxy = random.choice(PROXIES) if proxy['user_passwd'] is None: # 没有代理账户验证的代理使用方式 request.meta['proxy'] = "http://" + proxy['ip_port'] else: # 对账户密码进行base64编码转换 base64_userpasswd = base64.b64encode(proxy['user_passwd']) # 对应到代理服务器的信令格式里 request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd request.meta['proxy'] = "http://" + proxy['ip_port']
　　

　　4.2 修改settings.py配置USER_AGENTS和PROXIES

　　　　（1）添加USER_AGENTS：
USER_AGENTS = [ "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)", "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0", "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5" ]
　　　　（2）添加代理IP设置PROXIES
PROXIES = [ {'ip_port': '111.8.60.9:8123', 'user_passwd': 'user1:pass1'}, {'ip_port': '101.71.27.120:80', 'user_passwd': 'user2:pass2'}, {'ip_port': '122.96.59.104:80', 'user_passwd': 'user3:pass3'}, {'ip_port': '122.224.249.122:8088', 'user_passwd': 'user4:pass4'}, ]
　　　　（3）除非特殊的需要，禁用cookies，防止某些网站根据Cookie来封锁爬虫

　　　　　　`COOKIES_ENABLED=False`

　　　　（4）设置下载延迟

　　　　　　`DOWNLOAD_DELAY=3`

　　　　（5）设置settings.py里的DOWNLOADER_MIDDLEWARES，添加自己编写的下载中间类

　　　　　　```

　　　　　　DOWNLOADER_MIDDLEWARES={

　　　　　　　　'mySpider.middlewares.RandomUserAgent':1,

　　　　　　　　'mySpider.middlewares.ProxyMiddleware':100,

　　　　　　}

　　　　　　```

5、DOWNLOADER_MIDDLEWARES_BASE

　　在settings.py中对DOWNLOADER_MIDDLEWARES的设置，会与Scrapy内置的下载器中间间设置DOWNLOADER_MIDDLEWARES_BASE合并，但不会覆盖，而是根据顺序值进行排序，最后得到启用中间件的有序列表：第一个中间件是最靠近引擎的，最后一个中间件是最靠近下载器的。

　　Scrapy内置的中间间设置DOWNLOADER_MIDDLEWARES_BASE为：

　　（1）'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware':100

　　（2）'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware':300

　　（3）'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware':350

　　（4）'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':400

　　（5）'scrapy.downloadermiddlewares.retry.RetryMiddleware':500

　　（6）'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware':550

　　（7）'scrapy.downloadermiddlewares.redirect.MeteRefreshMiddleware':580

　　（8）'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':590

　　（9）'scrapy.downloadermiddlewares.redirect.RedirectMiddleware':600

　　（10）'scrapy.downloadermiddlewares.cookies.CookiesMiddleware':700

　　（11）'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':750

　　（12）'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware':830

　　（13）'scrapy.downloadermiddlewares.stats.DownloaderStats':850

　　（14）'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware':900　

　　如果想禁用内置的中间间，必须在DOWNLOADER_MIDDLEWARES中定义该中间件，并将值设置为None。
查看全文

相关阅读:
FileReader读数据
 FileWriter写数据
 装饰者设计模式
 数据库连接池
 事务
 EL表达式
 console.log是异步的吗？
使用i3wm时出现的若干问题的解决办法
 使用xmodmap修改键盘映射
 CentOS7 Minimal 安装后出现的若干问题解决办法

原文地址：https://www.cnblogs.com/nuochengze/p/12876838.html

十、scrapy中的Downloader Middlewares

1、通常防止爬虫被反主要有以下几个策略

2、设置下载中间件（Downloader Middlewares）

3、编写下载器中间件

3.1 process_request(self,request,spider)

（1）当每个request通过下载中间件时，该方法被调用

（2）porcess_request()必须返回以下其中之一：一个None、一个Response对象、一个Request对象或raise IgnoreRequest

（3）参数

3.2 process_response(self,request,response,spider)

（1）当下载器完成http请求，传递响应给引擎的时候调用

（2）process_request()必须返回以下其中之一：返回一个Response对象，返回一个Request对象或raise一个IgnoreRequest异常。

（3）参数

3.3 process_exception(request,exception,spider)

（1）当下载处理器或process_request()抛出异常，比如IgnoreRequest异常时，Scrapy调用process_exception()

（2）process_exception()应该返回None,Response对象或者Request对象其中之一

（3）参数

4、案例

4.1 编辑middlewares.py文件

4.2 修改settings.py配置USER_AGENTS和PROXIES

（1）添加USER_AGENTS：

（2）添加代理IP设置PROXIES

（3）除非特殊的需要，禁用cookies，防止某些网站根据Cookie来封锁爬虫

（4）设置下载延迟

（5）设置settings.py里的DOWNLOADER_MIDDLEWARES，添加自己编写的下载中间类

　　3.1 process_request(self,request,spider)

　　　　（1）当每个request通过下载中间件时，该方法被调用

　　　　（2）porcess_request()必须返回以下其中之一：一个None、一个Response对象、一个Request对象或raise IgnoreRequest

　　　　（3）参数

　　3.2 process_response(self,request,response,spider)

　　　　（1）当下载器完成http请求，传递响应给引擎的时候调用

　　　　（2）process_request()必须返回以下其中之一：返回一个Response对象，返回一个Request对象或raise一个IgnoreRequest异常。

　　　　（3）参数

　　3.3 process_exception(request,exception,spider)

　　　　（1）当下载处理器或process_request()抛出异常，比如IgnoreRequest异常时，Scrapy调用process_exception()

　　　　（2）process_exception()应该返回None,Response对象或者Request对象其中之一

　　　　（3）参数

　　4.1 编辑middlewares.py文件

　　4.2 修改settings.py配置USER_AGENTS和PROXIES

　　　　（1）添加USER_AGENTS：

　　　　（2）添加代理IP设置PROXIES

　　　　（3）除非特殊的需要，禁用cookies，防止某些网站根据Cookie来封锁爬虫

　　　　（4）设置下载延迟

　　　　（5）设置settings.py里的DOWNLOADER_MIDDLEWARES，添加自己编写的下载中间类