1.Xpath解析库
Xpath解析库介绍:
数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.
网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 再获取标签的文本或属性.
数据解析: re正则,xpath(lxml),bs4,pyquery -->从响应数据中抽离出目标数据
# xpath解析库解析数据的基本原理:
1.获取网页DOM树定位节点标签
2.获取节点标签的正文文本或属性值
2.使用步骤
#导包:
from lxml import etree
#实例化tree对象,并加载响应数据的文本形式
tree = etree.HTML(res.text) #加载直接从网页上爬出下来的响应数据
tree = etree.parse(html,etree.HTMLParser()) # 加载本地HTML页面
tag_or_attr = tree.xpath('xpath表达式')
#xpath语法:
常用规则:
1. nodename: 节点名定位
2. .//: 从当前节点选取子孙节点
3. ./: 从当前节点选取直接子节点
4. nodename[@attribute=''] 根据属性定位标签 # '//div[@class="ui-main"]'
5. @attributename: 获取属性
6. text(): 获取文本
7) . :当前节点
匹配属性的两种情况
2.属性匹配两种情况: 多属性匹配 & 单属性多值匹配
2.2 多属性匹配 示例: tree.xpath('//div[@class="item" and @name="test"]/text()')
2.1 单属性多值匹配 示例: tree.xpath('//div[contains(@class, "dc")]/text()')
3.按顺序选择
3. 按序选择:
3.1 索引定位: 从1开始
3.2 last()函数:last()-1 代表倒数第二个
3.3 position()函数
使用场景:一个列表中有10个标题,只需要取前几个,或者取第2个到第5个类似情况
使用方法:
[position()=2] [position()>2] [position()<2] [position()>2 and position()<6]