zoukankan      html  css  js  c++  java
  • scrapy中的Request和Response对象

    前言:

      如果框架中的组件比做成是人的各个器官的话,那个Request和Response就是血液,Item就是代谢产物

    Request对象:

      是用来描述一个HTTP请求,其构造参数有

    1. url
      1. 请求的URL
    2. callback
      1. 回调函数
    3. method
      1. 默认是GET
    4. headers
      1. 字典类型
    5. body
    6. cookies
      1. 字典类型
    7. meta
      1. Request中的元数据字典,dict类型,用来给框架中的其它组件来进行传递消息,比如说中间件Iten、Pipeline。其它组件可以使用request对象的meta属性来进行访问该元数据字典中的参数
    8. encoding
    9. priority
      1. 请求的优先级默认是0,优先级高的就会优先进行下载
    10. dont_filter
      1. 默认是False, 对同一个url地址多次提交下载任务请求,后面请求会被去重过滤器直接过滤掉(避免重复下载资源)。如果将该参数为True,可以让请求避免被过滤。强制进行下载。
    11. errback
      1. 当请求出现异常的时候或者HTTP错误的时候的回调函数

      这里面虽然有很多参数,但是除了url意外其它的都是可选参数,是带有默认值的。在构造Request对象的时候,通常我们只需要传递一个url参数和callback参数,其它的都是可以直接使用默认值就可以了

    Response对象:

      是用来描述一个HTTP相应的,Response只是一个基类,根据相应的内容的不同有TextResponse、HTmlResponse、XmlResponse

      当一个页面完成下载的时候,下载器根据HTTP响应头部中的Content-Type信息创建某个Response的子类的对象。我们通常爬取的网页中的内容就是HTML文件,所有创建的也就是HtmlResponse,其中HtmlResponse和XmlResponse是TextResponse的子类。实际上,这三个子类只有细微的差别

      HtmlResponse对象的属性以及方法:

      • url
        • HTTP响应的url地址,str类型
      • status
        • HTTP响应的状态码,int类型
      • headers
        • HTTP响应的头部,字典类型,可以通过get或者getlist方法对其进行访问
      • body
      • text
        • 文本形式的HTTP响应,str类型,是由response.body使用response.encoding解码得到的
      • encoding
      • request
        • 产生该HTTP响应的Request对象
      • meta
          • response.request.meta,在构造Request对象的时候,可以将要传递给回调函数的参数通过meta参数来进行传递;回调函数处理响应的时候,可以通过response.meta来进行取值
      • selector
        • 用于Response提取信息
      • xpath
      • css
      • urljoin
        • 用于构造绝对URL,当传入的URL参数是一个相对地址的时候,根据response.url计算出相应的绝对URL
  • 相关阅读:
    Flutter子组件调用父组件方法修改父组件参数
    Flutter点击两次返回键退出APP
    Flutter路由跳转父级页面向子页面传参及子页面向父级页面传参
    Flutter中用ListView嵌套GridView报错异常
    前端项目统一 ESlint 规则集
    前端规范
    手写防抖(Debouncing)和节流(Throttling)
    手写promise进阶版本
    实现一个call或 apply
    实现一个JSON.stringify()
  • 原文地址:https://www.cnblogs.com/tulintao/p/11697844.html
Copyright © 2011-2022 走看看