zoukankan      html  css  js  c++  java
  • scrapy shell基本使用方法

    Scrapy shell也称"Scrapy终端",是一个交互终端,使我们可以在未启动spider爬虫的情况下尝试及调试代码。

    启动

    - linux下:ctr+Alt+T打开终端,激活虚拟环境,然后输入:scrapy shell “url”(例:scrapy shell “http://www.baidu.com”)

    - windows下:打开终端(如powershell),激活虚拟环境,然后输入:scrapy shell “url”

    - 启动后自动下载指定url的网页

    - 下载完成后,url的内容保存在response变量中

    - 本网站爬取与分析结束后,退出:exit()

    response

    -          爬取的内容保存在response中

    -          response.body是网页的代码

    -          response.headers是返回的http的头信息

    -          response.xpath() 允许使用xpath语法选择内容

    -          response.css() 允许使用css语法选取内容

    selector

    -          选择器,允许用户使用选择器来选择自己想要的内容

    -          response.selector.xpath: response.xpath是response.selector.xpath的快捷方式

    -          response.selector.css: response.css是response.selector.css的快捷方式

    -          selector.extract: 把节点的内容用unicode形式返回

    -          selector.re: 允许用户通过正则选取内容

  • 相关阅读:
    Java高级面试题及答案
    Java SQL注入学习笔记
    Java实习生面试题整理
    各大公司Java面试题超详细总结
    Java面试经典题:线程池专题
    Java进阶面试题列表
    最新Java面试题及答案整理
    Java虚拟机(JVM)你只要看这一篇就够了!
    记一次Java的内存泄露分析
    Java线程池详解
  • 原文地址:https://www.cnblogs.com/djlbolgs/p/12506398.html
Copyright © 2011-2022 走看看