zoukankan      html  css  js  c++  java
  • 常用工具命令


    全局命令

    Scrapy 可执行文件命令说明:

    Fetch 命令

    主要用来显示爬虫爬取的工程。如图:

    如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。

    可以通过 Fetch 附带的参数进行爬取相关的数据,如:

    • --headers 参数来控制显示对应的爬虫爬取网页的头信息。 
    • --nolog 参数可以控制不显示日志信息。
    • --spider=SPIDER 参数来控制那个爬虫。
    • --logfile=FILE 参数控制日志存储信息的文件。
    • --loglevel=LEVEL 控制日志级别。

    Runspider 命令

    通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。

    Setting 命令

    可以查看 Scrapy 对应的配置信息。

    Shell 命令

    可以启动 Scrapy 的交互终端。

    Startproject 命令

    创建 Scrapy 项目。

    version 命令

    查看 Scrapy 版本信息。

    View 命令可以下载某个网页用浏览器查看的功能。

    $ scrapy view http://news.163.com

    执行命令后会打开默认浏览器并记录相关信息:

    项目命令

    项目命令需要进入 Scrapy 创建的项目内部执行。

    Bench 命令

    测试本地硬件的性能。

    $ scrapy banch

    Genspider 命令

    使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。

    查看模板:

    $ scrapy genspider -l

    使用 basic 模板创建一个项目:

    查看 csvfeed 爬虫模板中的内容:

    $ scrapy genspider -d csvfeed

    Check 命令

    实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)

    $ scrapy check slzcc

    Crawl 命令

    通过 Crawl 可以启动某个爬虫。

    $ scrapy crawl slzcc

    List 命令

    列出当前可以使用的爬虫

    $ scrapy list

    Edit 命令

    使用 list 后,可以对爬虫文件进行编辑。

    Parse 命令

    可以获取指定的 URL 网站。

    $ scrapy parse http://www.baidu.com --nolog
     
     
     
  • 相关阅读:
    vue学习笔记(四)---- 品牌管理案例
    vue学习笔记(三)---- vue-resource
    vue学习笔记(二) ---- vue实例的生命周期
    vue学习笔记(一) ---- vue指令(总体大纲)
    vue学习笔记(一)---- vue指令(在vue中使用样式的方式)
    【问题记录】—.NetCore 编译问题
    Docker学习—概念及基本应用
    Consul 学习笔记-服务注册
    认证授权:IdentityServer4
    认证授权:IdentityServer4
  • 原文地址:https://www.cnblogs.com/dalton/p/11353880.html
Copyright © 2011-2022 走看看