zoukankan      html  css  js  c++  java
  • scrapy请求发送详解

    scrapy自动发送请求

      对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现,但是在parse函数中还是获取到了响应数据,这是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests(self)这个方法,该方法就可以对start_urls列表中的url发起请求:

    1 def start_requests(self):
    2         for u in self.start_urls:
    3            yield scrapy.Request(url=u,callback=self.parse)

    【注意】该方法默认的实现,是对起始的url发起get请求,如果想发起post请求,则需要子类重写该方法。

    1 def start_requests(self):
    2         #请求的url
    3         post_url = 'http://fanyi.baidu.com/sug'
    4         # post请求参数
    5         formdata = {
    6             'kw': 'wolf',
    7         }
    8         # 发送post请求
    9         yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)

    手动对需要获取的内容的url发起请求  

    1 #手动发起get请求,url指定,callback指定回调解析函数(可自定义),meta可以传递参数,封装在request中以便回调解析函数使用(request.item)
    2 yield scrapy.Request(url=url,callback=self.parse1,meta={})
    3 #手动发起post请求:formdata为请求参数,callback指定回调解析函数(可自定义),meta可以传递参数,封装在request中
    4 yield scrapy.FormRequest(url=url,formdata=formdata, callback=self.parse2,meta={})

    在请求中,cookie的处理是scrapy自动封装好的。

      

  • 相关阅读:
    Struts2 HelloWorld_1
    Java Web JavaMail 邮件发送
    Struts2 ActionWildcard(通配符配置)约定优于配置
    Struts2 Action
    Struts2 struts2简介
    Struts2 ActionMethod DMI(动态方法调用)
    Java Web Servlet过滤器
    com学习笔记(2)基本的com接口QueryInterface的实现
    com学习笔记(4)动态链接
    silverlight Visifire图表转图片偷天换日的做法
  • 原文地址:https://www.cnblogs.com/open-yang/p/11330098.html
Copyright © 2011-2022 走看看