zoukankan html css js c++ java

scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置

在scrapy的反爬中，常用的几个配置，简单总结了下：

User-Agent中间件：

from fake_useragent import UserAgent

class RandomUserAgentMiddleware(object):

    def __init__(self, crawler):
        self.ua = UserAgent()

    def process_request(self, request, spider):
        request.headers.setdefault('User-Agent', self.ua.random)

代理IP中间件：

class RandomProxyMiddleware(object):
    '''
     这只是一个简单的演示
    '''
    def process_request(self, request, spider):
        ip = ''  # 要用到的代理IP
        port = ''  # 要使用的代理port
        request.meta['proxy'] = 'http://{}:{}'.format(ip, port)

cookies设置、多个爬虫共用一个settings时，各自spider中的设置：

class BaiduSpider(scrapy.Spider):

    name = 'baidu'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com']

    # custom_settings可以设置调整settings中的配置参数，以此来适配自己的spider。
    custom_settings = {
        'COOKIES_ENABLED':True,  # 在配置文件settings中可以设置成False, 在这个spider中这样设置就可以开启cookies了，其他的配置一样适用
    }
    
    def parse(self, response):
        pass

都是很简单实用的配置

验证码：打码平台比较简单、省事、效率

注：每天进步一点点，或记录或不记录，都是自己的。记录是怕遗忘，也是为了更好的想起！

查看全文

相关阅读:
批处理禁止指定的IE的加载项
 理解一个简单的网页请求过程
 求两条直线（线段）的交点
 hdu 3635 Dragon Balls (并查集)
uva 12452 Plants vs. Zombies HD SP (树DP)
ural 1500 Pass Licenses （状态压缩+dfs）
sgu 321 The Spy Network (dfs+贪心)
poj3535 A+B (大数加法)
zkw线段树专题
 ZOJ 2671 Cryptography 矩阵乘法+线段树

原文地址：https://www.cnblogs.com/shouzhong/p/10137715.html