zoukankan      html  css  js  c++  java
  • 常见的爬虫分析库(2)-xpath语法

    xpath简介

    1.xpath使用路径表达式在xml和html中进行导航

    2.xpath包含标准函数库

    3.xpath是一个w3c的标准

    xpath节点关系

    1.父节点

    2.子节点

    3.同胞节点

    4.先辈节点

    5.后代节点

    xpath语法

    表达式 s说明
    article  选取所有article元素的子节点
    /article  选取根元素article
    article/a 选取所有属于article的子元素a的元素
    //div  选取所有div子元素(不论出现在文档任何地方)
    /article//div 选取所有属于article元素的后代div元素。不管它出现在article元素之下的任何位置
    //@class 选取所有名为class的属性
    /article/div[1] 选取属于article子元素的第一个div元素
    /article/div[last()] 选取属于article子元素的最后一个div元素
    /article/div[last()-1] 选取属于article子元素的倒数第二个div元素
    //div[@lang] 选取所有拥有lang熟悉的div元素
    //div[@lang='eng'] 选取所有lang属性为eng的元素
    /div/* 选取属于div元素的所有子节点
    //* 选取所有元素
    //div[@*] 选取所有带属性div元素
    /div/a|//div/p 选取所有div元素的a和p元素
    //span|//ul 选取文档中的span和ul元素
    article/div/p|//span 选取所有属于article元素的div元素的p元素,以及文档中所有的span元素
  • 相关阅读:
    tomcat启动问题
    索引优化
    itext转PDF(二)
    itext转pdf(一)
    定时器quartz配置文件
    hibernate自动去别名问题
    win10安装mysql 8.0.19 (解压方式)
    把数据按列拆分为数据表
    程序记时
    find的应用
  • 原文地址:https://www.cnblogs.com/yunlongaimeng/p/9802090.html
Copyright © 2011-2022 走看看