zoukankan      html  css  js  c++  java
  • 6-Python爬虫-分布式爬虫/Redis

    分布式爬虫

    • 单机爬虫的问题:

      • 单机效率
      • IO吞吐量
    • 多爬虫问题

      • 数据共享
      • 在空间上不同的多台机器,可以成为分布式
    • 需要做:

      • 共享队列
      • 去重
    • Redis

      • 内存数据库
      • 同时可以落地保存到硬盘
      • 可以去重
      • 可以把他理解成一共dict,set,list的集合体
      • 可以对保存的内容进行生命周期控制
    • 内容保存数据库

      • MongoDB
      • Mysql等传统关系数据库
    • 安装scrapy_redis

      • pip install scrapy_reids
      • github.com/rolando/scrapy-redis
      • scrapy-redis.readthedocs.org

    推荐书籍

    • Python爬虫开发与项目实战, 范传辉, 机械工业出版社
    • 精通 python爬虫框架scrapy, 李斌 翻译, 人民邮电出版社
    • 崔庆才,
  • 相关阅读:
    大二暑期周总结(四)
    大二暑期周总结(三)
    寒假十七
    寒假十六
    寒假十五
    寒假十四
    寒假十三
    寒假十二
    寒假十一
    寒假十
  • 原文地址:https://www.cnblogs.com/xuxaut-558/p/10031409.html
Copyright © 2011-2022 走看看