zoukankan html css js c++ java

scrapy框架3——请求传参

当使用scrapy爬取的数据不在同一张页面中（一次请求与数据后解析无法获得想要的全部数据），需要请求传参，在第一次解析时实例化item,将item传递，再次将请求到的数据解析后，封装在item中。

关键点

yield scrapy.Request(callback=self.parse_detail,url = detail_url,meta={'item':item})

例如在豆瓣中，电影封面页获取电影名称，在详情页获取电影简介：

先从起始网页解析出电影名称和详情页的url

将得到的电影名称封装在item中

将解析到的url作为下一次请求的参数，同时将item作为参数传递，作为下一次解析结果的容器

最后将含有一组完整数据的item提交

import scrapy
import re
from douban.items import DoubanItem
class DbspiderSpider(scrapy.Spider):
    name = 'dbspider'
    start_urls = ['https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0/']
    def parse(self, response):
       title = re.findall('title":"(.*?)"',response.text,re.S,)
       url_list = re.findall('url":"(.*?)"',response.text,re.S)
       for name,url in zip(title,url_list):
            detail_url = url.replace('\','')
            item = DoubanItem()
            item['name'] = name
            yield scrapy.Request(callback=self.parse_detail,url = detail_url,meta={'item':item})
        #如果解析第2、3、4...页的数据，再次递归。。。
        
    def parse_detail(self,response):
        item = response.meta['item']
        #name = response.xpath('//*[@id="content"]/h1/span[1]/text()').exrtact_fist()
        instr = response.xpath('//*[@id="link-report"]/span[1]/text()').extract_first()
        item['instr'] = instr
        yield item

查看全文

相关阅读:
silverlight Prism4中文教程(第一章第三部分)——bluesky234
SilverLight学习笔记关于Silverlight资源文件(如:图片)的放置位置及其引用
 silverlight布局和式样中的常用三大控件 Canvas Grid StackPanel
silverlight Prism4中文教程(第一章第二部分)——bluesky234
图文详解Silverlight用WCF访问MSSQL数据库（silverlight china）
本人自写代码（Aspnetpager详细介绍）
Asp.net 2.0 水晶报表部署问题解决
 VS2005中使用AspNetPager控件成功事例代码(分页超快的哟)
AspNetPager不显示的N种可能性
 —(一)水晶报表(CrystalReports)的简单应用(配置及发布)

原文地址：https://www.cnblogs.com/notfind/p/11637568.html