zoukankan      html  css  js  c++  java
  • scrapy 执行同个项目多个爬虫

    一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件

    from scrapy import cmdline

    cmdline.execute('scrapy crawl 爬虫名'.split( ))

    但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆

    原博客 https://www.cnblogs.com/lei0213/p/7900340.html

    其中执行以下:

      1、在spiders同级创建任意目录,如:commands

      2、在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令)

    crawlall.py
    from scrapy.commands import ScrapyCommand
    from scrapy.utils.project import get_project_settings
     
     
    class Command(ScrapyCommand):
     
        requires_project = True
     
        def syntax(self):
            return '[options]'
     
        def short_desc(self):
            return 'Runs all of the spiders'
     
        def run(self, args, opts):
            spider_list = self.crawler_process.spiders.list()
            for name in spider_list:
                self.crawler_process.crawl(name, **opts.__dict__)
            self.crawler_process.start()

    到这里还没完,settings.py配置文件还需要加一条。

    COMMANDS_MODULE = ‘项目名称.目录名称’

                        项目名    目录名称
    COMMANDS_MODULE = 'zhihuuser.commands'                    

    这就是几乎完成了,如果需要执行,那么只要在cmd中cd进项目中scrapy crawlall,或者项目下新建一个py文件使用scrapy.cmdline运行, 或者 os.system('scrapy crawlall')

  • 相关阅读:
    Pillar
    Minion配置文件
    Master配置文件
    Grains
    常见的散列函数
    数据结构散列表
    转载:数据结构 二项队列
    转载:数据结构 左式堆
    数据结构 d-堆
    二叉堆的简单介绍
  • 原文地址:https://www.cnblogs.com/zengxm/p/10935453.html
Copyright © 2011-2022 走看看