scrapy-redis分布式 - 走看看

zoukankan html css js c++ java

scrapy-redis分布式
scrapy是python界出名的一个爬虫框架，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

虽然scrapy 能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘，有能人改变了 scrapy 的队列调度，将起始网址从 start_urls 里分离出来，改为从 redis 读取，多个客户段可以同时读取同一个redis，从而实现分布式爬虫。

（一）scrapy-redis安装
pip install scrapy-redis
（二） scrapy-redis 架构

（三）scrapy-redis 组建详细介绍

scrapy-redis 在 scrapy 的架构上增加了 redis，基于 redis 的特性拓展了如下四种组建：

1 Scheduler： scrapy 改造了 python 本来的collection。deque （双向队列）形成了自己的 scrapy queue，但是 Scrapy 多个 spider 不能共享待爬去对垒Scrap
查看全文

相关阅读:
Kubernetes基础
 docker概述
 mongoDB概述
 springcloud-stream为什么被引入
 springcloud-bus+config实现动态刷新定点通知
 springcloud-bus+config实现动态刷新全局广播配置
 springcloud-bus是什么
 springcloud-动态刷新之手动版
 springcloud-服务读取Config配置中心
 springcloud-Config配置中心搭建

原文地址：https://www.cnblogs.com/jcjc/p/10989973.html

Copyright © 2011-2022 走看看