zoukankan      html  css  js  c++  java
  • Scrapy基本命令

    全局命令,不用在项目中运行
    fetch:爬取网页,不依赖爬虫项目直接爬网页信息,并显示爬取过程
    scrapy命令格式:scrapy 命令名 --参数,可能通过--控制,例如:scrapy fetch -h fetch相关的使用方式
    spider命令:
    进行文件所在目录后,通过scrapy runspider 文件名(对文件进行运行)
    shell命令:
    启动scrapy交互终端,主要是在开发调试的时候用到,不启动scrapy的情况下对网站进行相应的调试,可以写相应的python代码进行测试
    例如:scrapy shell http://www.baidu.com --nolog(不显示爬取的log信息)
    startproject命令:
    创建爬虫项目,scrapy startproject 项目名
    version命令:
    查看对应的版本信息
    view命令:
    下载某个网页并用浏览器查看的功能,例如:scrapy view http://news.163.com

    项目命令
    bench测试本地硬件性能的命令

    项目目录介绍:
    1.scrapy.cfg是爬虫项目的配置文件
    first文件加是爬虫项目的核心目录。
    first爬虫项目的目录结构
    a.__init__.py:初始化文件
    b.items.py:目标文件,要爬取的信息在该文件中设定要爬取的内容
    c.piplines.py:爬取文件后的后续信息文件处理
    d.settings.py:爬虫的设置文件,例如将爬虫伪装成浏览器或用户代理
    e.middlewares.py
    spiders是爬虫文件夹,里面可以有多个爬虫文件

    创建爬虫文件命令:scrapy genspider(基于模板创建爬虫文件) -l(查看当前由那些模板)
    显示由4个爬虫模板
    1.basic是基本的爬虫模板
    2.crawl是自动爬虫模板。例如:scrapy genspider [options] name domain。options可以选择自己需要的参数, 若留空, 则默认使用basic模板生成spider
    3.csvvfeed是基于该模板处理csv文件
    4.xmlfeed是基于该模板处理xml文件

    基于basic创建一个爬虫的基本格式:scrapy genspider -t(创建用-t) 输入对应的模板 输入爬虫文件名 允许的域名。例如scrapy genspider -t basic weisuen baidu.com

    check命令:主要用于测试。scrapy check 爬虫名 例如:scrapy check weisuen

    crawl启动运行某个爬虫文件 scrapy crawl 控制参数(可以不添加)爬虫名 例如:scrapy crawl weisuen

    list命令:scrapy list 展示当前项目中可以使用的爬虫文件 例如:scrapy list

    edit命令:直接通过编辑器打开某一个爬虫文件。在windows下无法运行,在linux可以运行,scrapy edit

    parse命令:获取指定的url网址并且可以进行相应的处理和分析。例如:scrapy parse http://www.baidu.com

    command指令即可完成,在项目文件下的命令行输入。例如:scrapy crawl AnJuKe -o items.csv

    Xpath调试:
    命令行输入:scrapy shell "爬取的URL"
    [s] Available Scrapy objects:
    [s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
    [s] crawler <scrapy.crawler.Crawler object at 0x0000000005529A58>
    [s] item {}
    [s] request <GET https://beijing.anjuke.com/sale/>
    [s] response <200 https://beijing.anjuke.com/sale/>
    [s] settings <scrapy.settings.Settings object at 0x0000000005529898>
    [s] spider <DefaultSpider 'default' at 0x57b0320>
    [s] Useful shortcuts:
    [s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default
    , redirects are followed)
    [s] fetch(req) Fetch a scrapy.Request and update local object
    s
    [s] shelp() Shell help (print this help)
    [s] view(response) View response in a browser
    In [1]:

    response.xpath调试,为了判断我们的xpath是否正确,例如:response.xpath('//div/div/a[@class="laisuzhou"]/span/text()').extract()
    再可以输入:view.(response)

  • 相关阅读:
    UNIX网络编程读书笔记:辅助数据
    使用Android Studio搭建Android集成开发环境(图文教程)
    Android数据存储(二)----PreferenceFragment详解
    Android系列----JUnit单元测试的使用
    Android数据存储(一)----SharedPreferences详解
    使用IntelliJ IDEA 13搭建Android集成开发环境(图文教程)
    Android系列之网络(三)----使用HttpClient发送HTTP请求(分别通过GET和POST方法发送数据)
    Android系列之网络(二)----HTTP请求头与响应头
    Android系列之网络(一)----使用HttpClient发送HTTP请求(通过get方法获取数据)
    Android多线程----异步消息处理机制之Handler详解
  • 原文地址:https://www.cnblogs.com/fenghuoliancheng/p/10430449.html
Copyright © 2011-2022 走看看