zoukankan      html  css  js  c++  java
  • 命令行工具(2)

    一 配置文件scrapy.cfg

    1 全局配置文件路径  盘符: ... scrapyscrapy

    2 项目配置文件

      

    配置文件的优先级别: 用户定义的配置文件优先级别高于系统范围的默认值.

    二 创建醒目的基本命令

    scrapy startproject myproject #创建项目
    
    cd myproject #进入项目根目录
    
    scrapy genspider mydomain mydomain.com #创建爬虫文件
    
    scrapy crawl mydomain  #启动爬虫文件

    三 命令分类

    全局命令

    • startproject  #创建项目
    • genspider    #创建爬虫文件
    • settings     #查看配置信息
    • runspider    #启动某爬虫文件
    • shell       #启动爬虫shell交互界面
    • fetch       #爬取某网页
    • view       #网页查看爬取数据
    • version     #查看爬虫版本

    仅限项目的命令:

    • crawl   #启动爬虫文件
    • check   #爬虫语法检测        
    • list   #查看爬虫列表
    • edit   #编辑爬虫文件
    • parse  #解析某网页
    • bench  

    四 用法示例

    $ scrapy list #查看爬虫列表
    spider1
    spider2
    
    $ scrapy edit spider1 #编辑爬虫文件
    
    
    $ scrapy view http://www.example.com/some/page.html #网页打开请求页面源码
    
    $ scrapy shell [url] #启动shell
    
    $ scrapy parse http://www.example.com/ -c parse_item
    
    $ scrapy settings --get DOWNLOAD_DELAY
    
    $ scrapy runspider myspider.py  #启动指定爬虫文件
    
    $ scrapy version [-v] #查看爬虫版本
  • 相关阅读:
    事件
    dom对象
    逻辑运算和作用域的问题
    json
    数组
    字符串
    函数
    js的数据类型和全局方法
    js
    10.16 js内容
  • 原文地址:https://www.cnblogs.com/angle6-liu/p/10725284.html
Copyright © 2011-2022 走看看