zoukankan      html  css  js  c++  java
  • scrapy 执行同个项目多个爬虫

    一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件

    from scrapy import cmdline

    cmdline.execute('scrapy crawl 爬虫名'.split( ))

    但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆

    原博客 https://www.cnblogs.com/lei0213/p/7900340.html

    其中执行以下:

      1、在spiders同级创建任意目录,如:commands

      2、在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令)

    crawlall.py
    from scrapy.commands import ScrapyCommand
    from scrapy.utils.project import get_project_settings
     
     
    class Command(ScrapyCommand):
     
        requires_project = True
     
        def syntax(self):
            return '[options]'
     
        def short_desc(self):
            return 'Runs all of the spiders'
     
        def run(self, args, opts):
            spider_list = self.crawler_process.spiders.list()
            for name in spider_list:
                self.crawler_process.crawl(name, **opts.__dict__)
            self.crawler_process.start()

    到这里还没完,settings.py配置文件还需要加一条。

    COMMANDS_MODULE = ‘项目名称.目录名称’

                        项目名    目录名称
    COMMANDS_MODULE = 'zhihuuser.commands'                    

    这就是几乎完成了,如果需要执行,那么只要在cmd中cd进项目中scrapy crawlall,或者项目下新建一个py文件使用scrapy.cmdline运行, 或者 os.system('scrapy crawlall')

  • 相关阅读:
    windows 安装 anaconda
    全局路径规划--A*算法详解
    编码的种类
    request的encode和decode
    BGP的13条选路原则
    BGP路由黑洞 路由反射器 和联盟2021-07-28
    JMS-ActiveMQ-SpringBoot
    JMS-ActiveMQ-Spring
    JMS-中间件MQ-activeMQ入门
    spring-ssm整合
  • 原文地址:https://www.cnblogs.com/zengxm/p/10935453.html
Copyright © 2011-2022 走看看