zoukankan      html  css  js  c++  java
  • 常用工具命令


    全局命令

    Scrapy 可执行文件命令说明:

    Fetch 命令

    主要用来显示爬虫爬取的工程。如图:

    如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。

    可以通过 Fetch 附带的参数进行爬取相关的数据,如:

    • --headers 参数来控制显示对应的爬虫爬取网页的头信息。 
    • --nolog 参数可以控制不显示日志信息。
    • --spider=SPIDER 参数来控制那个爬虫。
    • --logfile=FILE 参数控制日志存储信息的文件。
    • --loglevel=LEVEL 控制日志级别。

    Runspider 命令

    通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。

    Setting 命令

    可以查看 Scrapy 对应的配置信息。

    Shell 命令

    可以启动 Scrapy 的交互终端。

    Startproject 命令

    创建 Scrapy 项目。

    version 命令

    查看 Scrapy 版本信息。

    View 命令可以下载某个网页用浏览器查看的功能。

    $ scrapy view http://news.163.com

    执行命令后会打开默认浏览器并记录相关信息:

    项目命令

    项目命令需要进入 Scrapy 创建的项目内部执行。

    Bench 命令

    测试本地硬件的性能。

    $ scrapy banch

    Genspider 命令

    使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。

    查看模板:

    $ scrapy genspider -l

    使用 basic 模板创建一个项目:

    查看 csvfeed 爬虫模板中的内容:

    $ scrapy genspider -d csvfeed

    Check 命令

    实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)

    $ scrapy check slzcc

    Crawl 命令

    通过 Crawl 可以启动某个爬虫。

    $ scrapy crawl slzcc

    List 命令

    列出当前可以使用的爬虫

    $ scrapy list

    Edit 命令

    使用 list 后,可以对爬虫文件进行编辑。

    Parse 命令

    可以获取指定的 URL 网站。

    $ scrapy parse http://www.baidu.com --nolog
     
     
     
  • 相关阅读:
    洛谷 P2480 [SDOI2010]古代猪文
    [六省联考2017]组合数问题
    数据结构--左偏树(可并堆)
    图论--tarjan求割点
    图论--tarjan缩点
    图论--DFS-SPFA求负环
    图论--tarjan求lca
    洛谷 P2163 [SHOI2007]Tree 园丁的烦恼
    数据结构--主席树(不带修改)
    洛谷 P1712 区间
  • 原文地址:https://www.cnblogs.com/dalton/p/11353880.html
Copyright © 2011-2022 走看看