zoukankan html css js c++ java

scrapy基本爬虫，采集多页

# -*- coding: utf-8 -*-
import csv

import scrapy


class GjSpider(scrapy.Spider):
    name = 'gj'
    allowed_domains = ['ganji.com']
    start_urls = ['http://sz.ganji.com/zufang/']



    def parse(self, response):
        houseList = response.xpath('.//div[@class="f-main-list"]/div/div[position()>2]')
        for houst in houseList:
            title = houst.xpath(".//dl/dd[contains(@class,'title')]/a/@title").extract_first()
            size = houst.xpath(".//dl/dd[contains(@class,'size')]/span[3]/text()").extract_first()
            chaoxiang = houst.xpath(".//dl/dd[contains(@class,'size')]/span[5]/text()").extract_first()
            price = houst.xpath(".//dl/dd[contains(@class,'info')]/div/span[1]/text()").extract_first()
            address1 = houst.xpath(".//dl/dd[contains(@class,'address')]/span/a[1]/text()").extract_first()
            address2 = houst.xpath(".//dl/dd[contains(@class,'address')]/span/a[2]/span/text()").extract_first()

            item = {'title':title,"size":size,"chaoxiang":chaoxiang, "price":price,"address": str(address1)+"-"+str(address2)}
            yield item

        next_links = response.xpath('.//div[@class="pageBox"]//a[contains(@class,"next")]/@href').extract()
        if(len(next_links) > 0) :
            next_link = next_links[0]
            print(next_link)
            yield scrapy.Request(next_link,self.parse)

查看全文

相关阅读:
ArcGIS Server 10.1 错误 service failed to start,
ArcGIS AddIN开发异常之--“ValidateAddInXMLTask”任务意外失败
 关于程序批量处理人工做的数据。。。。
ArcEngine创建要素类_线类型
 ArcEngine创建要素类01
ArcEngine创建要素集
 其他人博客地址
 ArcEngine创建要素类_面类型
 ArcEngine判断要素集是否存在
 Arcengine 判断Dataset是否存在

原文地址：https://www.cnblogs.com/php-linux/p/12505324.html