如需转发,请注明出处:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10520271.html
有问题请在博客下留言或加作者微信:tinghai87605025 或 QQ :87605025
python QQ交流群:py_data 483766429
OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA
OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA
一、xpath 浅谈
1.1 xpath 是什么?
给某些规律信息找通用表达式,我们首先想到的是正则,然而,对于大部分的我们正则用的是不好的,如果用来处理HTML文档是很累,那么有没有其他的方法?答案是肯定的,有!那就是XPath,我们可以先将网络获取的String类型数据转换成 HTML/XML文档,然后用 XPath 查找 HTML/XML 节点或元素。
即XPath (XML Path Language) 是一门在 XML 文档(如下图)中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历
1.2 lxml 库
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath语法,来快速的定位特定元素以及节点信息。
二、 xpath 路径表达式
2.1 最常用的路径表达式
2.2 常用路径表达式以及表达式的结果
2.3 选取未知节点
2.4 选取若干路径,通过在路径表达式中使用“|”运算符,您可以选取若干个路径
2.5 xpath的运算符
三、xpath 入门测试
3.1 lxml 读取数据
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8" />
<title>测试页面</title>
</head>
<body>
<ol>
<li class="haha">醉卧沙场君莫笑,古来征战几人回</li>
<li class="heihei">两岸猿声啼不住,轻舟已过万重山</li>
<li id="hehe" class="nene">一骑红尘妃子笑,无人知是荔枝来</li>
<li class="xixi">停车坐爱枫林晚,霜叶红于二月花</li>
<li class="lala">商女不知亡国恨,隔江犹唱后庭花</li>
</ol>
<div id="pp">
<div>
<a href="http://www.baidu.com">李白</a>
</div>
<ol>
<li class="huanghe">君不见黄河之水天上来,奔流到海不复回</li>
<li id="tata" class="hehe">李白乘舟将欲行,忽闻岸上踏歌声</li>
<li class="tanshui">桃花潭水深千尺,不及汪伦送我情</li>
</ol>
<div class="hh">
<a href="http://mi.com">雷军</a>
</div>
<div class="jj">
<b href="http://mi.com"><c>3</c></b>
<b href="http://mi.com"><c>5</c></b>
<b href="http://mi.com"><c>6</c></b>
<b href="http://mi.com"><c>8</c></b>
<b href="http://mi.com"><c>9</c></b>
<b href="http://mi.com"><c>3</c></b>
</div>
<ol>
<li class="dudu">are you ok</li>
<li class="meme">会飞的猪</li>
</ol>
</div>
</body>
</html>
3.2 xpath 入门实验
- lxml 、element 、etree
-
1 import requests 2 3 # lxml 4 # element 标签 5 # etree 标签树 6 from lxml import etree 7 8 url = 'https://www.qiushibaike.com/text/' 9 10 x = '''/html/body/div[@id='content']/div[@class='content-block clearfix']/div[@id='content-left']/div[@id='qiushi_tag_120441381']/div[@class='author clearfix']/a[1]/img/@src''' 11 12 13 x = '''/html/body/div[@id='content']/div[@class='content-block clearfix']/div[@id='content-left']/div[@id='qiushi_tag_112124634']/div[@class='author clearfix']/a[1]/img/@src''' 14 15 x = '//img/@src' 16 17 x = '''/html/body/div[@id='content']/div[@class='content-block clearfix']/div[@id='content-left'] 18 /div[@id='qiushi_tag_112124634']/a[@class='contentHerf']/div[@class='content']/span''' 19 20 x = '//div[@class="content"]/span/text()' 21 response = requests.get(url=url,verify = False) 22 response.encoding = 'utf-8' 23 24 # String 串 25 html = response.text 26 27 # 使用etree,转换成标签树 28 # json.loads() 类似 29 30 31 html_tree = etree.HTML(html) 32 33 # print(html_tree) 34 # print(etree.tostring(html_tree).decode('utf-8')) 35 36 37 # 对etree对象使用xpath方法,根据xpath语句进行数据的查找 38 src = html_tree.xpath(x) 39 40 print(src)
-
- 获取所有的 <li> 标签
-
1 from lxml import etree 2 3 html = etree.parse('hello.html') 4 li_list = html.xpath('//li') 5 6 print(li_list) # 打印<li>标签的元素集合 7 print(len(li_list))
-
- 继续获取<li> 标签的所有 class属性
-
1 from lxml import etree 2 3 html = etree.parse('hello.html') 4 result = html.xpath('//li/@class') 5 print(result)
-
- 继续获取<li>标签下hre 为 link1.html 的 <a> 标签
-
1 from lxml import etree 2 html = etree.parse('./hello.html') 3 result = html.xpath('//li/a[@href="link1.html"]') 4 print(result)
-
- 获取<li> 标签下的所有 <span> 标签
-
1 from lxml import etree 2 data = ''' 3 <div> 4 <ul> 5 <li class="item-0">你好,老段<a href="link1.html">first item</a></li> 6 <li class="item-1"><a href="link2.html">second item</a></li> 7 <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li> 8 <li class="item-1"><a href="link4.html">fourth item</a></li> 9 <li class="item-0"><a href="link5.html">fifth item</a></li> 10 </ul> 11 </div>''' 12 html = etree.HTML(data) 13 result = html.xpath('//li//span') 14 print(result[0].text)
-
- 获取 <li> 标签下的<a>标签里的所有 class
-
1 # 获取 <li> 标签下的<a>标签里的所有 class 2 from lxml import etree 3 html = etree.parse('hello.html') 4 result = html.xpath('//li/a//@class') 5 6 print(result)
-
- 获取最后一个 <li> 的 <a> 的 href
-
1 from lxml import etree 2 3 xml = etree.parse('./hello.html') 4 5 result = xml.xpath('//li[last()]/a/@href') 6 7 print(result)
-
- 获取倒数第二个元素的内容
-
1 from lxml import etree 2 3 html = etree.parse('hello.html') 4 result = html.xpath('//li[last()-1]/a') 5 print(result[0].text) 6 print(result)
-
- 获取 class 值为 bold 的标签名
-
1 # 获取 class 值为 bold 的标签名 2 from lxml import etree 3 html = etree.parse('hello.html') 4 result = html.xpath('//*[@class="bold"]') 5 # tag方法可以获取标签名 6 print(result[0].tag) 7 print(result[0].text)
-
- 练习使用xpath获取books该xml文件中的内容
1 from lxml import etree 2 3 books = ''' 4 <?xml version="1.0" encoding="utf-8"?> 5 <bookstore> 6 <book category="cooking"> 7 <title lang="en">Everyday Italian</title> 8 <author>Giada De Laurentiis</author> 9 <year>2008</year> 10 <price>30.00</price> 11 </book> 12 <book category="children" lang="zh"> 13 <title lang="en">Harry Potter</title> 14 <author>J K. Rowling</author> 15 <year>2005</year> 16 <price>29.99</price> 17 </book> 18 <book category="web"> 19 <title lang="en">XQuery Kick Start</title> 20 <author>James McGovern</author> 21 <author>Per Bothner</author> 22 <author>Kurt Cagle</author> 23 <author>James Linn</author> 24 <author>Vaidyanathan Nagarajan</author> 25 <year>2003</year> 26 <price>49.99</price> 27 </book> 28 <book category="web" cover="paperback"> 29 <title lang="en">Learning XML</title> 30 <author>Erik T. Ray</author> 31 <year>2003</year> 32 <price>39.95</price> 33 </book> 34 </bookstore> 35 ''' 36 37 books_tree = etree.HTML(books) 38 39 books = books_tree.xpath('//book[price<=30][year + 3 = 2008]') 40 41 print(books) 42 43 # 将查询到的book中的所有属性选出来 44 ret = books[0].xpath('.//@*') 45 print(ret)
- 数据转换成标签树
1 from lxml import etree 2 3 html = '''<div> 4 <ul> 5 <li class="item-0"><a href="link1.html">first item</a></li> 6 <li class="item-1"><a href="link2.html">second item</a></li> 7 <li class="item-inactive"><a href="link3.html" class="linkjfdlsfjls">third item</a></li> 8 <li class="shfs-inactive"><a href="link4.html">third item</a></li> 9 <li class="isjfls-inactive"><a href="link5.html">third item</a></li> 10 <li class="qwert-inactive"><a href="link6.html">third item</a></li> 11 <li class="item-1"><a href="link4.html">fourth item</a></li> 12 <li class="item-0"><a href="link5.html">fifth item</a> 13 </ul> 14 </div>''' 15 16 # 数据转换成标签树 17 #方式一 18 html_tree = etree.HTML(html) 19 20 # 方式二,可以将文件中的直接进行转换 21 html_tree2 = etree.parse('./data.html') 22 23 # print(html_tree,html_tree2) 24 25 # print(etree.tostring(html_tree).decode('utf-8')) 26 # 获取文件中所有的标签li 27 # xpath返回的数据是列表,标签<Element 内存地址> 28 li = html_tree.xpath('//li') 29 # print(li) 30 31 32 li = html_tree.xpath('//li[@class="item-1"]') 33 # print(li[0].xpath('..//a/text()')) 34 35 36 # 查询class属性不等于“item-1” 标签 37 li = html_tree.xpath('//li[@class!="item-1"]') 38 # print(li) 39 40 41 # 查询li标签,class 包含inactive 字符串 42 li = html_tree.xpath('//li[contains(@class,"inactive")]') 43 # print(li) 44 # print(li[0].xpath('./a/@*')) 45 46 47 # 查询li标签,class 不包含inactive字符串 48 li = html_tree.xpath('//li[not(contains(@class,"inactive"))]') 49 # print(li) 50 # print(etree.tostring(li[0]).decode('utf-8')) 51 52 53 # 查询li标签,class 不包含inactive字符串 同时包含class =item-1 54 li = html_tree.xpath('//li[not(contains(@class,"inactive"))][@class="item-1"]') 55 # print(li) 56 # print(etree.tostring(li[-1]).decode('utf-8')) 57 58 59 # 查询li标签,最后一个 60 # print(etree.tostring(html_tree).decode('utf-8')) 61 li = html_tree.xpath('/html/body/div/ul/li') 62 li = html_tree.xpath('//li[last()-1]') 63 # print(li,etree.tostring(li[0])) 64 65 66 # 查询位置小于4的标签 67 li = html_tree.xpath('//li[position()<4]') 68 print(li)
欢迎关注小婷儿的博客:
csdn:https://blog.csdn.net/u010986753
博客园:http://www.cnblogs.com/xxtalhr/
有问题请在博客下留言或加作者微信:tinghai87605025 或 QQ :87605025
python QQ交流群:py_data 483766429
OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA
OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
重要的事多做几遍。。。。。。