zoukankan      html  css  js  c++  java
  • scrapy多线程文件下载

    在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。

    scrapy中有个扩展可以使用扩展模块来实现下载。

    在自己的spider中加入 custom_settings 

    class MytestSpider(scrapy.Spider):
        name = "mytest"
        custom_settings = {
            'EXTENSIONS': { #设在拓展
                'mymidtest.mydownutils.extension.SpiderOpenCloseLogging': 500,  
            },
            'MYEXT_ENABLED': True, #打开拓展
        }
    'mymidtest.mydownutils.extension.SpiderOpenCloseLogging'为项目路劲下的mydownuils包
    在ini函数中加入
        def __init__(self, ):
            .........
            .........
            self.myredis = operatRedis(self.name)
            self.Redis = self.myredis.get_instent()

    在要下载的时候添加

    self.myredis.add_url_filepath(self.Redis,url,filepath_all)
    url为下载url地址,filepath_all文件存储地址
    这样工具包就配置好可以下载了


    工具包地址
    github地址:https://github.com/sea1234/pyScrapyDownUtils
  • 相关阅读:
    Android TTS
    观察者模式(C++实现)
    android 8未知来源app安装
    NotificationChannel
    java底层知识
    Java14
    数据库分区、分库分表
    二叉搜索树的第k大节点
    从上到下按层打印二叉树
    springcloud面试知识点
  • 原文地址:https://www.cnblogs.com/seablog/p/7157646.html
Copyright © 2011-2022 走看看