zoukankan      html  css  js  c++  java
  • xpath简单语法

    1.Xpath解析库

    Xpath解析库介绍:
    数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.  
    
    网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 再获取标签的文本或属性.
    
    数据解析: re正则,xpath(lxml),bs4,pyquery -->从响应数据中抽离出目标数据
    
    # xpath解析库解析数据的基本原理:
    1.获取网页DOM树定位节点标签
    2.获取节点标签的正文文本或属性值
    

    2.使用步骤

    #导包: 
    from lxml import etree
    #实例化tree对象,并加载响应数据的文本形式
    tree = etree.HTML(res.text)  #加载直接从网页上爬出下来的响应数据
    
    tree = etree.parse(html,etree.HTMLParser()) # 加载本地HTML页面
    
    tag_or_attr = tree.xpath('xpath表达式')
    
    #xpath语法:
    常用规则:
    1. nodename:   节点名定位
    2. .//:   	   从当前节点选取子孙节点
    3.	./:	      从当前节点选取直接子节点
    4. nodename[@attribute='']	根据属性定位标签   # '//div[@class="ui-main"]' 
    5.  @attributename:    获取属性       
    6.  text():           获取文本 
    7) . :当前节点
    

    匹配属性的两种情况

    2.属性匹配两种情况: 多属性匹配 &  单属性多值匹配     
        
    2.2 多属性匹配    示例: tree.xpath('//div[@class="item" and @name="test"]/text()')  
        
    2.1 单属性多值匹配    示例: tree.xpath('//div[contains(@class, "dc")]/text()')
    

    3.按顺序选择

    3. 按序选择:
       3.1 索引定位: 从1开始
       3.2 last()函数:last()-1 代表倒数第二个
       3.3 position()函数
        
        使用场景:一个列表中有10个标题,只需要取前几个,或者取第2个到第5个类似情况
    使用方法:
    [position()=2] [position()>2] [position()<2] [position()>2 and position()<6]
  • 相关阅读:
    【iOS开发-36】Bundle Identifier的中文字符变成-的问题
    js html 页面倒计时 精确到秒
    Material DesignDrawerLayout的旋转箭头的实现方式。
    C# 用 * 输出两个等腰三角形组成的菱形
    学习笔记(九)并发(三)
    外派到某项目帮忙,但受到排斥怎办?
    nginx学习
    ftk学习记(滑动条篇)
    使用JDBC改变Oracle的session參数 NLS_DATE_FORMAT
    Python中调用自然语言处理工具HanLP手记
  • 原文地址:https://www.cnblogs.com/wonderlandlove/p/12790926.html
Copyright © 2011-2022 走看看