zoukankan html css js c++ java

step4: Xpath的使用

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 包含一个标准函数库。

XPath 是一个 W3C 标准。

语法简介：

http://www.runoob.com/xpath/xpath-syntax.html

节点介绍：

父节点/子节点/同胞节点/先辈节点/后代节点

语法：

提取title

#这里注意修改start_urls

    def parse(self, response):

        title1 = response.xpath("/html/body/div[3]/div[3]/div[1]/div[1]/h1")  #这里根据网页源码第一个div应为1
        #title2 = response.xpath('//*[@id="post-112265"]/div[1]/h1/text()')
        title = response.xpath('//div[@class="entry-header"]/h1/text()').extract()[0] #extract提取为数组，然后获取第一个值

断点调试与scrapy shell

提取时间

        date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","")
        #strip()去换行，空格

提取点赞数

#提取不到值
praise_num = response.xpath("//span[@class='vote-post-up']")
#引出contains函数并向下取一层h10标签，输出数组第一个值
praise_num = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]

提取正文内容

#获取属性为entry的标签内容
content = response.xpath("//div[@class='entry']").extract()[0]

查看全文

相关阅读:
使用ECMAScript 6 模块封装代码
 JavaScript生成一个不重复的ID
利用setenv进行tomcat 内存设置
 使用Nginx、Nginx Plus防止服务器DDoS攻击
 【Nginx】实现负载均衡的几种方式
 一台Linux服务器可以负载多少个连接？
Linux配置使用SSH Key登录并禁用root密码登录
 Spring JPA事务
 使用SVN钩子强制提交日志和限制提交文件类型
 RabbitMQ 初学及其深入学习推荐的一些文章

原文地址：https://www.cnblogs.com/coolwinds/p/7447937.html