Scrapy 实现翻页:
next_page_url = response.xpath("//a[text()='Next Page']/@href").extract() while len(next_page_url) >0: yield scrapy.Request( next_page_url, callback = self.parse, meta = {“item”:item} )
scrapy.Requests知识点:
scrapy.Requests(url,callback,method='GET',headers,body,cookies,meta,dont_filter=False)
callback:指定传入的URL交给哪个解析函数去处理,
meta:实现在不同的解析函数中传递数据,meta默认会携带部分信息,比如下载延迟,请深圳市深度等
dont_filter:让scrapy的去重不会过滤当前的url,scrapy默认有url去重功能,对需要重复请求的ulr有重要用途