scrapy处理需要跟进的url - 走看看

zoukankan html css js c++ java

scrapy处理需要跟进的url
在做scrapy爬虫的时候经常会遇到需要跟进url的情况，网站a有许多url，但是我们需要跟进这些url，进一步获取这些url中的详细内容。

简单的说就是要先解析出所有需要的url，然后跟进这些url

那么现在来说说怎么做

scrapy中有个Request专门处理跟进的url
from scrapy.http import Request
在处理函数parse中进行跟进
def parse(self, response): hxs = Selector(response) urls = hxs.xpath('//div[@class="li-info"]//h3//a/@href').extract() for url in urls: yield Request(url, callback=self.get_community)
callback中的函数才是重点，对跟进的url再次发送请求，
def get_community(self, response): hxs = Selector(response) item = CommunityItem() yield item
这个函数用来进行对跟进的url进行解析，以便得到我们想要的数据

这里只是跟进了一次url，如果需要跟进多次url，可以多次使用Request，多个回调函数处理。
查看全文

相关阅读:
Codeforces Round #455 (Div. 2) A. Generate Login【贪心】
Codeforces Round #315 (Div. 2)【贪心/重排去掉大于n的元素和替换重复的元素】
CSU-ACM2018寒假集训选拔-入门题
 Codeforces Round #454 C. Shockers【模拟/hash】
Nowcoder Girl 参考题解【待写】
2017吉首大学新生赛
 P1450 包裹快递 RP+14【二分】
NewCode
2017年浙江工业大学大学生程序设计迎新赛决赛题解
 Codeforces Round #451 (Div. 2) B. Proper Nutrition【枚举/扩展欧几里得/给你n问有没有两个非负整数x,y满足x·a + y·b = n】

原文地址：https://www.cnblogs.com/lgh344902118/p/8565757.html

Copyright © 2011-2022 走看看