zoukankan      html  css  js  c++  java
  • step4: Xpath的使用

    XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

    XPath 包含一个标准函数库。

    XPath 是一个 W3C 标准。

    语法简介:

    http://www.runoob.com/xpath/xpath-syntax.html

    节点介绍:

    父节点/子节点/同胞节点/先辈节点/后代节点

    语法:

     提取title

    #这里注意修改start_urls
    
        def parse(self, response):
    
            title1 = response.xpath("/html/body/div[3]/div[3]/div[1]/div[1]/h1")  #这里根据网页源码第一个div应为1
            #title2 = response.xpath('//*[@id="post-112265"]/div[1]/h1/text()')
            title = response.xpath('//div[@class="entry-header"]/h1/text()').extract()[0] #extract提取为数组,然后获取第一个值

    断点调试与scrapy shell

    提取时间

            date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","")
            #strip()去换行,空格

    提取点赞数

    #提取不到值
    praise_num = response.xpath("//span[@class='vote-post-up']")
    #引出contains函数并向下取一层h10标签,输出数组第一个值
    praise_num = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]

    提取正文内容

    #获取属性为entry的标签内容
    content = response.xpath("//div[@class='entry']").extract()[0]
  • 相关阅读:
    [C#]获取指定文件文件名、后缀、所在目录等
    Mysql 存储引擎中InnoDB与Myisam的主要区别
    MySQL的btree索引和hash索引的区别
    Mysql事务的隔离级别
    AE序列号
    mysql索引类型说明
    去除url中自带的jsessionid
    redirect传值非url(springmvc3)
    ueditor的使用
    mysql用户管理(开户、权限)
  • 原文地址:https://www.cnblogs.com/coolwinds/p/7447937.html
Copyright © 2011-2022 走看看