zoukankan      html  css  js  c++  java
  • Scrspy 命令

    Scrapy 中的命令在开发中会经常用到,可以说没有命令就没有 Scrapy ,下面我就来讲解一下 Scrapy 常用的命令。

    零、命令分类

    Scrapy 具有两种类型的命令,分别是项目命令和全局命令。所谓的项目命令就是在项目中执行的命令,而全局命令则是指不需要在项目中运行的命令(感觉这段有点废话,o(*≧▽≦)ツ)。

    1. 项目命令
      项目命令包含如下 7 个。
    命令 说明
    crawl 运行指定爬虫
    check 检查爬虫代码
    list 列出项目中所有爬虫
    edit 编辑爬虫文件
    parse 爬取指定的url
    genspider 创建爬虫
    bench 性能检测
    1. 全局命令
      全局命令同样包括 7 个。
    命令 说明
    startproject 创建项目
    settings 查看设置信息
    runspider 运行爬虫
    shell 打开shell控制台
    fetch 下载网页信息
    view 浏览器打开指定网址
    version 查看版本号

    一、常用命令解析

    常用的 Scrapy 命令由 8 种,分别是 startproject 、 genspider 、 crawl 、 list 、fetch 、 runspider 、 view 和 parse,下面分别来进行介绍。

    1. startproject
    • 语法格式为:
    scrapy startproject [爬虫项目名称] [项目存储文件夹]
    

    Tip:这里需要注意的是项目存储文件夹是个可选参数,如果不指定的话将创建一个和项目名称一样的文件夹来存储爬虫代码。

    命令执行后将生成如下结构的项目目录。

    在这里插入图片描述

    下面我针对上面的文件和文件夹进行解释。

    • spders:存储的是所有的爬虫文件;
    • items.py:定义 Scrapy 的输出内容;
    • middlewares.py:定义了爬虫中使用的中间件;
    • pipelines.py:定义如何处理爬取的数据;
    • settings.py:配置文件,所有的中间件和 pipeline 等必须在这里激活。
    1. genspider
      通过 startproject 创建了项目基本框架后,我们就可以创建爬虫了。
    • 语法格式
    scrapy genspider [-t 模板名称] [爬虫名称] [爬取的页面url]
    

    在上面命令中我们可以通过 -t 指令指定爬虫所使用的模板,该指令可以不填写,Scrapy 中存在 4 中模板分别是 basiccrawlcsvfeedxmlfeed 。如果不传递 -t 指令将默认使用 basic 模板,在后面的文章中我们讲解这些模板相关的知识。

    1. crawl
      创建并编写完爬虫后我们将启动爬虫,启动爬虫的命令很简单.
    • 语法
    scrapy crawl [爬虫名称]
    
    1. list
      当我们的项目中有很多爬虫的时候,我们可以使用 list 命令查看所有的爬虫信息。
    • 语法
    scrapy list
    
    1. fetch
      fetch 命令会下载指定的 url 页面。
    • 语法
    scrapy fetch [设置信息] [url]
    

    设置信息包含 4 种:

    • –spider=spider:使用指定的 spider 替换默认值;
    • –headers:打印 Response 的 header;
    • –no-redirect:不进行重定向抓取;
    • –nolog:不输出运行日志。
    1. runspider
      当我们的项目为创建时可以利用这个命令运行爬虫文件。
    • 语法
    scrapy runspider [设置信息] spider.py
    

    设置信息常用的指令是 –o File ,它会将抓取的信息保存到 File 里,File 指的是数据要保存的而文件完整路径。
    7. view
    通过 view 命令可以下载并在默认浏览器中运行页面。

    • 语法
    scrapy [url]
    

    Tip:有些情况下我们看到的页面和 view 命令现实的页面不一样,这是因为 view 命令加载的页面是不执行页面里的异步加载的部分。

    1. parse
      这个命令我们经常用来测试爬虫的运行效果。
    • 语法
    scrapy parse [设置信息] [url]
    

    设置信息包含 8 种:

    • –spider=spider:使用指定爬虫;
    • –a Name=VALUE:爬虫参数;
    • -c:处理 Response 的回调函数;
    • -m:向 Request 传递参数,参数格式为 {“name”:“value”};
    • –pipelines:指定使用的 items;
    • -r:指定使用的 rules ,这个指令只在 crawl 模板中适用;
    • –noitems:不显示爬取的item;
    • –nolinks:不显示解析链接。

    二、总结

    这一小节主要讲解了 Scrapy 常用的命令,这些命令在实际开发中很有用。如果在使用中有疑问的话可以使用 scrapy [命令] -h 查看具体用法。

  • 相关阅读:
    标识类型模式
    脏检查和快照的故事
    Hibernate入门案例及增删改查
    Oracle函数解析
    Oracle基础及三层分页查询
    java解析xml文档(dom)
    TCP和UDP的聊天
    java线程同步
    试题分析(第三套)
    java线程的简单实现及方法
  • 原文地址:https://www.cnblogs.com/gangzhucoll/p/12778119.html
Copyright © 2011-2022 走看看