基于spider的全站数据爬取

全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析

需求：爬取校花网中照片的名称

实现方式：

将所有页面的url添加到start_url列表中（不推荐）

自行手动的进行请求发送（推荐）

手动请求发送

yield scrapy.Request(url=new_url,callback=self.parse)

import scrapy


class XiaohuaSpider(scrapy.Spider):
    name = 'xiaohua'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.521609.com/daxuemeinv/']

    # 生成一个通用的url模板(不可变)
    url = 'http://www.521609.com/daxuemeinv/list8%d.html'
    page_num = 2

    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
        for li in li_list:
            img_name = li.xpath('./a[2]/b/text() | ./a[2]/text()'  ).extract_first()
            print(img_name)

        if self.page_num <= 11:
            new_url = format(self.url%self.page_num)
            self.page_num += 1
            # 手动请求发送:callback回调函数是专门用作于数据解析
            yield scrapy.Request(url=new_url,callback=self.parse)

查看全文

相关阅读:
C#反射概念以及实例详解【转】
.NET(C#)：使用反射来获取枚举的名称、值和特性【转】
探求C#.Net中ArrayList与Array的区别【转】
C#中IList<T>与List<T>的区别感想【转】
C# System.Guid.NewGuid() 【转】
回车键触发按钮事件
 MVC中Json的使用：Controller中Json的处理【转】
关于优化性能<主要是速度方面>的个人心得【转】
ca72a_c++_标准IO库：面向对象的标准库
 ca71a_c++_指向函数的指针_通过指针调用函数txwtech

原文地址：https://www.cnblogs.com/nanjo4373977/p/12986706.html