zoukankan html css js c++ java

Xpath轴与步长应用：取某节点下所有子孙节点里的文本内容

最近遇到个需求，需要爬一些数据使用，写好了爬虫后爬到了一段HTML，然后用lxml解析，接下来就是定位到具体节点提取内容。遇到了一个问题，想要提取的内容在一个class名为full-content的<div>中，文本内容有可能就在div中，也有可能在子孙节点中，那怎么全部提取呢？查了一下Xpath有轴与步长的用法，

详细用法参考：http://www.w3school.com.cn/xpath/xpath_axes.asp

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。
child	选取当前节点的所有子元素。
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
following	选取文档中当前节点的结束标签之后的所有节点。
namespace	选取当前节点的所有命名空间节点。
parent	选取当前节点的父节点。
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。

因此：用以下Xpath表达式解决了问题。

"//div[@class="full-content"]/descendant::text()"

　　方法二：

Xpath选取多个路径也可以用以下方式实现：

A路径|B路径

查看全文

相关阅读:
day11 函数的进阶
 day10 文件的补充以及函数
 day9 文件处理
 day8 字典的补充以及集合
 Vue学习下
 前端常用js方法集
 js实现千位符格式化
 Vue项目总结上
 VUE项目github
http://www.jianshu.com/p/42e11515c10f#

原文地址：https://www.cnblogs.com/liangzp/p/9158623.html

最新文章
5-udev多路径
 4-iscsi
3-udev
2-kvm创建快照以及网卡绑定
 1-安装kvm及虚拟机
 5-sql查询
 4-pl-sql的安装
 3-EM的安装和使用
 2-sql基本操作
 滚动浏览