zoukankan      html  css  js  c++  java
  • [Python自学] 爬虫(4)xpath

    一、xpath

    1.安装xpath

    pip install lxml

    2.简单使用

    获取根目录下的html标签对象:

    import requests
    
    from lxml import etree
    
    res = requests.get("https://www.bilibili.com/")
    
    html = etree.HTML(res.content.decode('utf-8'))
    html_data = html.xpath('/html')  # 获取根目录下的html标签
    print(html_data)  # [<Element html at 0x25018d16408>] 是一个列表,包含一个html标签对象

    二、xpath语法

    1.选择节点

    表达式描述
    nodename 选取此节点的所有子节点。
    / 从根节点选取。
    // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
    . 选取当前节点。
    .. 选取当前节点的父节点。
    @ 选取属性。

    例子:

    html_data = html.xpath('/html')  # 选择根目录下的html标签
    html_data = html.xpath('/html/body')  # 选择html标签下的body标签
    html_data = html.xpath('//div')  # 选择所有div标签(不关心位置)
    html_data = html.xpath('/html//div')  # 选择html标签下的所有div标签(不关心位置)
    html_data = html.xpath('//@src')  # 选择所有src属性的值

    注意,返回的结果都是列表,要注意判断列表中元素的个数是否为0。

    2.Predicates(谓语)

    路径表达式结果
    /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
    /bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
    /bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
    /bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
    //title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
    //title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
    /bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
    /bookstore/book[price>35.00]//title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

    例子:

    html_data = html.xpath('/html/body/div[1]')  # 获取body标签下子标签中第一个div标签(注意index从1开始)
    html_data = html.xpath('/html/body/div[last()]')  # 获取body标签下子标签中最后一个div标签
    html_data = html.xpath('/html/body/div[last()-1]')  # 获取body标签下子标签中倒数第二个div标签
    html_data = html.xpath('/html/body/div[position()<3]')  # 获取body标签下子标签中idx小于3的两个div标签
    html_data = html.xpath('/html/body/div[@class]')  # 获取body标签下子标签中所有拥有class属性的div标签
    html_data = html.xpath('/html/body/div[@id="app"]')  # 获取body标签下子标签中所有id="app"的div标签

    3.通配选择

    通配符描述
    * 匹配任何元素节点。
    @* 匹配任何属性节点。
    node() 匹配任何类型的节点。
    路径表达式结果
    /bookstore/* 选取 bookstore 元素的所有子元素。
    //* 选取文档中的所有元素。
    //title[@*] 选取所有带有属性的 title 元素。

    4.多条件选择

    路径表达式结果
    //book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
    //title | //price 选取文档中的所有 title 和 price 元素。
    /bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

    5.XPath 轴(Axes)

    轴可定义相对于当前节点的节点集。

    轴名称结果
    ancestor 选取当前节点的所有先辈(父、祖父等)。
    ancestor-or-self 选取当前节点的所有先辈(父、祖父等)以及当前节点本身。
    attribute 选取当前节点的所有属性。
    child 选取当前节点的所有子元素。
    descendant 选取当前节点的所有后代元素(子、孙等)。
    descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
    following 选取文档中当前节点的结束标签之后的所有节点。
    following-sibling 选取当前节点之后的所有兄弟节点
    namespace 选取当前节点的所有命名空间节点。
    parent 选取当前节点的父节点。
    preceding 选取文档中当前节点的开始标签之前的所有节点。
    preceding-sibling 选取当前节点之前的所有同级节点。
    self 选取当前节点。

    xpath中的轴是跟在"/"后的一个表述字符,默认的"/"相当于"/child":

    /html/body/div
    # 相当于
    /html/body/child::div

    我们默认使用"/"获取的都是子节点。也可以使用其他的轴来获取不同关系的节点。例如:

    html_data = html.xpath('/html/body/div/ancestor::*')  # 获取/html/body/div节点的所有先辈节点,[<Element html at 0x2156955fec8>, <Element body at 0x2156955ff88>]
    html_data = html.xpath('/html/body/div/ancestor-or-self::*')  # 获取/html/body/div节点的所有先辈节点以及自己(这里有3个div) 
    # [<Element html at 0x1b74790df48>, <Element body at 0x1b7479181c8>, <Element div at 0x1b746a9c348>, <Element div at 0x1b747918108>, <Element div at 0x1b7479180c8>]

    其他轴的使用方法以此类推。

    6.xpath使用属性匹配

    html_data = html.xpath('//div[starts-with(@class,"international")]')  # class属性以international开头
    html_data = html.xpath('//div[ends-with(@class,"app")]')  # class属性以app结尾
    html_data = html.xpath('//div[contains(@class,"app")]')  # class属性包含app字符串

    在使用这些字符串处理函数时,要注意支持的xpath版本,有可能这些函数会报错,例如python在使用lxml时,ends-with不工作。

    ====

  • 相关阅读:
    Modbus: 1. Java使用Modbus读取Slave端数据(TCP)
    Nodejs后台发送https请求验证证书
    Cocos2d-JS: 2.编译到安卓和iOS
    Cocos2d-JS: 1.环境搭建
    [转载]聪明人为什么不统治世界——从围棋到德州扑克
    [转载] 国内外GIS方面的网站(较全)
    [转载]土豪算法(笑话也是实话)
    [转载]混沌理论三原则
    [转]追MM的各种算法
    [转载]建筑美和数学美
  • 原文地址:https://www.cnblogs.com/leokale-zz/p/12894378.html
Copyright © 2011-2022 走看看