xpath路径
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
1、选取节点
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
案例:
路径表达式 | 结果 |
---|---|
bookstore | 选取 bookstore 元素的所有子节点。 |
/bookstore | 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置。 |
bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的所有属性 |
2、对于节点查找的内容进行修饰
案例:
路径表达式 | 结果 |
---|---|
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()❤️] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
//title[@lang='eng'] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
3、选取未知节点
通配符 | 描述 |
---|---|
* | 匹配任何元素节点。 |
@* | 匹配任何属性节点。 |
node() | 匹配任何类型的节点。 |
举例
路径表达式 | 结果 |
---|---|
/bookstore/* | 选取 bookstore 元素的所有子元素。 |
//* | 选取文档中的所有元素。 |
//title[@*] | 选取所有带有属性的 title 元素。 |
4、关键字
用例 | 举例 |
---|---|
text() | book/author/text() |
string() | book/author/string() |
举例
XML例子
<book> <author>Tom <em>John</em> cat</author> <pricing> <price>20</price> <discount>0.8</discount> </pricing> </book> text()
text()
经常在XPath表达式的最后看到text(),它仅仅返回所指元素的文本内容。
爬取的xpath格式为book/author/text()
爬取下来的内容是Tom cat
其中的John不属于author直接的节点内容。
string()
string()函数会得到所指元素的所有节点文本内容,这些文本讲会被拼接成一个字符串。
爬取的xpath格式为book/author/string()
爬取下来的内容是Tom John cat
author头到尾部中间所有的内容都爬出来
Xpath详细使用介绍
# xpath选择 # / 从根节点选取 /a 从根节点开始,往下找a(子)标签 # // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 //a 从根节点开始找a标签(子子孙孙中所有a) # . 选取当前节点。 # .. 选取当前节点的父节点。 # @ 选取属性。 doc=''' <html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html' id="xxx">Name: My image 1 <br /><img src='image1_thumb.jpg' /></a> <h5>test</h5> <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a> <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a> <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a> <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a> <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a> </div> </body> </html> ''' from lxml import etree html=etree.HTML(doc) # 传字符串 # html=etree.parse('search.html',etree.HTMLParser()) # 文件 # 1 所有节点 a=html.xpath('//*') # 2 指定节点(结果为列表) a=html.xpath('//head') # 3 子节点,子孙节点 a=html.xpath('//div/a') #查找所有div标签下的子标签a a=html.xpath('//body/a') #无数据 a=html.xpath('//body//a') # 4 父节点 a=html.xpath('//body//a[@href="image1.html"]/..') a=html.xpath('//body//a[@href="image1.html"]') a=html.xpath('//body//a[1]/..') # 查找body下所有a标签中的第一个a标签的父标签 # 5 属性匹配 a=html.xpath('//body//a[@href="image1.html"]') # 选取所有a元素,且这些元素拥有值为image1.html的href属性。 # 6 文本获取 标签后加:/text() ***重点 a=html.xpath('//body//a[@href="image1.html"]/text()') a=html.xpath('//body//a/text()') # 7 属性获取 标签后:/@href ***重点 a=html.xpath('//body//a/@href') # # 注意从1 开始取(不是从0) a=html.xpath('//body//a[3]/@href') # 8 属性多值匹配 # a 标签有多个class类,直接匹配就不可以了,需要用contains a=html.xpath('//body//a[@class="li"]') #这么写有问题,因为类可以有多个 a=html.xpath('//body//a[@href="image1.html"]') a=html.xpath('//body//a[contains(@class,"li")]') a=html.xpath('//body//a[contains(@class,"li")]/text()') a=html.xpath('//body//a[contains(@class,"li")]/@name') # 9 多属性匹配 or 和 and (了解) a=html.xpath('//body//a[contains(@class,"li") or @name="items"]') a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()') a=html.xpath('//body//a[contains(@class,"li")]/text()') # 10 按序选择 a=html.xpath('//a[2]/text()') a=html.xpath('//a[2]/@href') # 取最后一个(了解) a=html.xpath('//a[last()]/@href') a=html.xpath('//a[last()]/text()') # 位置小于3的 a=html.xpath('//a[position()<3]/@href') a=html.xpath('//a[position()<3]/text()') # 倒数第二个 a=html.xpath('//a[last()-2]/@href') # 11 节点轴选择 # ancestor:祖先节点 # 使用了* 获取所有祖先节点 a=html.xpath('//a/ancestor::*') # 获取祖先节点中的div a=html.xpath('//a/ancestor::div') a=html.xpath('//a/ancestor::div/a[2]/text()') # attribute:属性值 a=html.xpath('//a[1]/attribute::*') a=html.xpath('//a[1]/@href') # child:直接子节点 a=html.xpath('//a[1]/child::*') a=html.xpath('//a[1]/img/@src') # descendant:所有子孙节点 a=html.xpath('//a[6]/descendant::*') # following:当前节点之后所有节点(递归) a=html.xpath('//a[1]/following::*') a=html.xpath('//a[1]/following::*[1]/@href') # following-sibling:当前节点之后同级节点(同级) a=html.xpath('//a[1]/following-sibling::*') a=html.xpath('//a[1]/following-sibling::a') a=html.xpath('//a[1]/following-sibling::*[2]') a=html.xpath('//a[1]/following-sibling::*[2]/@href') print(a)