zoukankan      html  css  js  c++  java
  • Scrapy实战篇(一)之爬取链家网成交房源数据(上)

    今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据。

    这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。

    首先创建一个名称为lianjia的项目。

    需求分析

    爬取数据的第一步当然是确定我们的需求,大方向就是我们想拿到南京地区的房源成交信息,但是具体的细节信息,我们需要从网页来看,,我们直接在浏览器中输入以下的网址https://nj.lianjia.com/chengjiao/,会显示南京地区的成交的房源信息,包括名称,房屋简介,地理位置,成交日期,成交价格,成交单价等详细信息,这样我们就确定了我们想要的信息,我们在items.py文件中定义如下的一些字段。

    #items.py
    from scrapy import Item,Field
    
    class LianjiaItem(Item):
        region = Field()      #行政区域
        href = Field()        #房源链接
        name = Field()        #房源名称
        style = Field()       #房源结构
        area = Field()           #小区
        orientation = Field()    #朝向
        decoration = Field()     #装修
        elevator = Field()       #电梯
        floor = Field()          #楼层高度
        build_year = Field()     #建造时间
        sign_time = Field()      #签约时间
        unit_price = Field()     #每平米单价
        total_price = Field()    #总价
        fangchan_class = Field()   #房产类型
        school = Field()         #周边学校
        subway = Field()         #周边地铁
    

    请注意,以上的信息,并不是每一套房源都有的,比如下面的地铁,学校,很多房源都是没有的。

    问题

    • 你会发现一个问题,每一个页面会呈现30条的房源信息,最下面一共可以显示100页,总计最多也就是3000条信息,南京地区的成交房源信息肯定不止这区区的3000条,那么如果直接从这个页面通过翻页来获取数据,最多只能获取到3000条信息,所以我们这里需要转思路。

    • 还是这个页面,可以看到页面上部列出了南京地区的行政区,我们随意选择一个,会发现,新的页面依然是每一页30条,共计100页,但是我们有11个行政区,那么其数量也是翻了好几倍了。

    • 这个时候,你可能还是不满足,我们想办法看一下是不是还可以进一步向下划分,没错那就是小区,我们把房源从11个行政区划分到小区上,以小区为单位,每一个小区上面还有房源数据,这样的话,我们的信息可以说比较全面了,当然了,我们需要做的工作也是要翻倍的。

    总结

    这里我们通过分析,总结出了如下的思路:

    • 以行政区为单位,先获取南京地区所有的小区信息
    • 以小区为单位,获取每一个小区里面的房源数据
    • 最后就是获取具体的每一个房源的信息。

    具体实施

    现在明确了我们的思路,下面就开始具体的实施。

    编写spider.py文件

    from scrapy import Spider,Request
    import re
    from lxml import etree
    import json
    from urllib.parse import quote
    from lianjia.items import LianjiaItem
    
    class Lianjia_spider(Spider):
        name = 'lianjia'
        allowed_domains = ['nj.lianjia.com']
        regions = {'gulou':'鼓楼',
                   'jianye':'建邺',
                   'qinhuai':'秦淮',
                   'xuanwu':'玄武',
                   'yuhuatai':'雨花台',
                   'qixia':'栖霞',
                   'jiangning':'江宁',
                   'liuhe':'六合',
                   'pukou':'浦口',
                   'lishui':'涟水',
                   'gaochun':'高淳'
        }
    
        def start_requests(self):
            for region in list(self.regions.keys()):
                url = "https://nj.lianjia.com/xiaoqu/" + region + "/"
                yield Request(url=url, callback=self.parse, meta={'region':region}) #用来获取页码
    
        def parse(self, response):
            region = response.meta['region']
            selector = etree.HTML(response.text)
            sel = selector.xpath("//div[@class='page-box house-lst-page-box']/@page-data")[0]  # 返回的是字符串字典
            sel = json.loads(sel)  # 转化为字典
            total_pages = sel.get("totalPage")
    
            for i in range(int(total_pages)):
                url_page = "https://nj.lianjia.com/xiaoqu/{}/pg{}/".format(region, str(i + 1))
                yield Request(url=url_page, callback=self.parse_xiaoqu, meta={'region':region})
    
        def parse_xiaoqu(self,response):
            selector = etree.HTML(response.text)
            xiaoqu_list = selector.xpath('//ul[@class="listContent"]//li//div[@class="title"]/a/text()')
            for xq_name in xiaoqu_list:
                url = "https://nj.lianjia.com/chengjiao/rs" + quote(xq_name) + "/"
                yield Request(url=url, callback=self.parse_chengjiao, meta={'xq_name':xq_name, 
                                        'region':response.meta['region']})
    
        def parse_chengjiao(self,response):
            xq_name = response.meta['xq_name']
            selector = etree.HTML(response.text)
            content = selector.xpath("//div[@class='page-box house-lst-page-box']")  #有可能为空
            total_pages = 0
            if len(content):
                page_data = json.loads(content[0].xpath('./@page-data')[0])
                total_pages = page_data.get("totalPage")  # 获取总的页面数量
            for i in range(int(total_pages)):
                url_page = "https://nj.lianjia.com/chengjiao/pg{}rs{}/".format(str(i+1), quote(xq_name))
                yield Request(url=url_page, callback=self.parse_content, meta={'region': response.meta['region']})
    
        def parse_content(self,response):
            selector = etree.HTML(response.text)
            cj_list = selector.xpath("//ul[@class='listContent']/li")
    
    
            for cj in cj_list:
                item = LianjiaItem()
                item['region'] = self.regions.get(response.meta['region'])
                href = cj.xpath('./a/@href')  
                if not len(href):
                    continue
                item['href'] = href[0]
    
                content = cj.xpath('.//div[@class="title"]/a/text()') 
                if len(content):
                    content = content[0].split()  # 按照空格分割成一个列表
                    item['name'] = content[0]
                    item['style'] = content[1]
                    item['area'] = content[2]
    
                content = cj.xpath('.//div[@class="houseInfo"]/text()')
                if len(content):
                    content = content[0].split('|')
                    item['orientation'] = content[0]
                    item['decoration'] = content[1]
                    if len(content) == 3:
                        item['elevator'] = content[2]
                    else:
                        item['elevator'] = '无'
    
                content = cj.xpath('.//div[@class="positionInfo"]/text()')
                if len(content):
                    content = content[0].split()
                    item['floor'] = content[0]
                    if len(content) == 2:
                        item['build_year'] = content[1]
                    else:
                        item['build_year'] = '无'
    
                content = cj.xpath('.//div[@class="dealDate"]/text()')
                if len(content):
                    item['sign_time'] = content[0]
    
                content = cj.xpath('.//div[@class="totalPrice"]/span/text()')
                if len(content):
                    item['total_price'] = content[0]
    
                content = cj.xpath('.//div[@class="unitPrice"]/span/text()')
                if len(content):
                    item['unit_price'] = content[0]
    
                content = cj.xpath('.//span[@class="dealHouseTxt"]/span/text()')  
                if len(content):
                    for i in content:
                        if i.find("房屋满") != -1:  # 找到了返回的是非-1得数,找不到的返回的是-1
                            item['fangchan_class'] = i
                        elif i.find("号线") != -1:
                            item['subway'] = i
                        elif i.find("学") != -1:
                            item['school'] = i
                yield item
    
    

    我们对上面关键的地方进行解释:

    • start_requests
      这个就是我们以行政区为单位,目的是爬取每一个行政区的小区列表。
    • parse
      对行政区返回的response进行解析,我们目的是拿到这个大的行政区,包含多少个页面,其中的
      total_pages就是具体的页面数,接下来就是按照页码请求每一个页面。
    • parse_xiaoqu
      上面返回了每一个页面的信息,这个时候我们就把当前页面的小区列表拿到,而后,在针对小区列表,每一个小区进行一次请求。
    • parse_chengjiao
      解析小区的页面数,上面说到了,我们请求了每一个小区数据,这个小区肯定不止包含一页的数据,那么我们这个方法就是将这个小区包含的页面数抽取出来,而后针对每一个页面进行请求
    • parse_content
      这个方法就是解析具体的页面了,可以看到,这个方法里面包含了非常多的条件判断,这是因为,我们之前定义的item字段里面的信息,并不是每一个小区都有的,就是说,我们要的信息他不是一个规规矩矩的信息,很多的房源没有提供相关的信息,比如地铁,周边学校等等的信息,我们这里就是如果有这个信息,我们就把它提取出来,如果没有的话,我们就给他自定义一个内容
      。最后将item提交给item pipeline进行后续的处理。

    由于这一节的信息比较多,我们就把它分为两个小节,在下一节中,我们对拿到的数据进行后续的处理。

  • 相关阅读:
    FLINK基础(87): DS算子与窗口(1)简介
    Flink实例(三十九):状态管理(十)配置checkpoint
    FLINK基础(112): DS算子与窗口(23)多流转换算子(7)Broadcasting
    Flink实例(三十七):状态管理(八)自定义操作符状态(三)广播状态(Broadcast state)(一) KeyedBroadcastProcessFunction
    Flink实例(三十六):状态管理(七)自定义操作符状态(二)union list state
    关闭firecracker
    Creating Custom rootfs and kernel Images
    Build a single-app rootfs for Firecracker MicroVMs
    由浅入深CrosVM(一)—— 如何在Ubuntu中搭建CrosVM
    Making a Custom MicroVM for AWS Firecracker!
  • 原文地址:https://www.cnblogs.com/cnkai/p/7404972.html
Copyright © 2011-2022 走看看