xpath提取多个标签下的text

zoukankan html css js c++ java

xpath提取多个标签下的text
在写爬虫的时候，经常会使用xpath进行数据的提取，对于如下的代码：
<div id="test1">大家好！</div>
使用xpath提取是非常方便的。假设网页的源代码在selector中：
data = selector.xpath('//div[@id="test1"]/text()').extract()[0]
就可以把“大家好！”提取到data变量中去。

然而如果遇到下面这段代码呢？
<div id="test2">美女，<font color=red>你的微信是多少？</font><div>
如果使用：
data = selector.xpath('//div[@id="test2"]/text()').extract()[0]
只能提取到“美女，”；

如果使用：
data = selector.xpath('//div[@id="test2"]/font/text()').extract()[0]
又只能提取到“你的微信是多少？”

可是我本意是想把“美女，你的微信是多少？”这一整个句子提取出来。

这还不是最糟糕的，还有第三段代码：
<div id="test3">我左青龙，<span id="tiger">右白虎，<ul>上朱雀，<li>下玄武。</li></ul>老牛在当中，</span>龙头在胸口。<div>
而且内部的标签还不固定，如果我有一百段这样类似的html代码，又如何使用xpath表达式，以最快最方便的方式提取出来？

我差一点就去用正则表达式替换了。还好我去Stack Overflow上面提了问。于是很快就有人给我解答了。

使用xpath的string(.)

以第三段代码为例：
data = selector.xpath('//div[@id="test3"]') info = data.xpath('string(.)').extract()[0]
这样，就可以把“我左青龙，右白虎，上朱雀，下玄武。老牛在当中，龙头在胸口”整个句子提取出来，赋值给info变量。

http://www.tuicool.com/articles/iqQFBn
查看全文

相关阅读:
破衣服的回忆
 underscorejs 源码走读笔记
 关于书籍《区块链以太坊DApp开发实战》的内容告示
 从区块链技术研发者的角度，说说我的区块链从业经历和对它的理解
 简介以太坊 2.0 核心之共识机制的改变
 一般电商应用的订单队列架构思想
 详细讲解：零知识证明之 ZCash 完整的匿名交易流程
 HyperLogLog 算法的原理讲解以及 Redis 是如何应用它的
 由 System.arraycopy 引发的巩固：对象引用与对象的区别
 如何独立开发一个网络请求框架

原文地址：https://www.cnblogs.com/wicub/p/5438138.html

xpath提取多个标签下的text

使用xpath的string(.)