zoukankan html css js c++ java

xpath简单语法

1.Xpath解析库

Xpath解析库介绍:
数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.  

网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 再获取标签的文本或属性.

数据解析： re正则，xpath(lxml),bs4,pyquery -->从响应数据中抽离出目标数据

# xpath解析库解析数据的基本原理:
1.获取网页DOM树定位节点标签
2.获取节点标签的正文文本或属性值

2.使用步骤

#导包： 
from lxml import etree
#实例化tree对象，并加载响应数据的文本形式
tree = etree.HTML(res.text)  #加载直接从网页上爬出下来的响应数据

tree = etree.parse(html,etree.HTMLParser()) # 加载本地HTML页面

tag_or_attr = tree.xpath('xpath表达式')

#xpath语法：
常用规则：
1. nodename:   节点名定位
2. .//:   	   从当前节点选取子孙节点
3.	./：	      从当前节点选取直接子节点
4. nodename[@attribute='']	根据属性定位标签   # '//div[@class="ui-main"]' 
5.  @attributename:    获取属性       
6.  text():           获取文本 
7) . :当前节点

匹配属性的两种情况

2.属性匹配两种情况: 多属性匹配 &  单属性多值匹配     
    
2.2 多属性匹配    示例: tree.xpath('//div[@class="item" and @name="test"]/text()')  
    
2.1 单属性多值匹配    示例: tree.xpath('//div[contains(@class, "dc")]/text()')

3.按顺序选择

3. 按序选择：
   3.1 索引定位： 从1开始
   3.2 last()函数：last()-1 代表倒数第二个
   3.3 position()函数
    
    使用场景：一个列表中有10个标题，只需要取前几个，或者取第2个到第5个类似情况
使用方法：
[position()=2] [position()>2] [position()<2] [position()>2 and position()<6]

查看全文

相关阅读:
WinAPI: ExtTextOut 扩展的文本输出
 WinAPI: SetTextCharacterExtra 设置字符间距
 WinAPI: DrawTextEx 多功能文本绘制
 WinAPI: sndPlaySound 播放 wav 文件
 WinAPI: SetTextColor 设置设备环境的文本颜色
 WinAPI: DrawText 将文本绘制到指定的矩形中
 WinAPI: GetTextColor 获取设备环境的文本颜色
 WinAPI: GetTextAlign 获取绘图环境的文本对齐方式
 ulimit限制之nproc问题
 基于EPOLL写的HTTP服务器(加入了线程池)

原文地址：https://www.cnblogs.com/wonderlandlove/p/12790926.html