zoukankan      html  css  js  c++  java
  • scrapy基础 之 xpath网页结构

    1 ,什么是xpath

        XPath 是一门在 XML 文档中查找信息的语言。XML是一种类似于HTML的传输协议

    2,节点

        XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。

        实例:

     <?xml version="1.0" encoding="ISO-8859-1"?>
    
     <bookstore>
      <book>
         <title lang="en">Harry Potter</title>
         <author>J K. Rowling</author>
         <year>2005</year>
         <price>29.99</price>
       </book>
    </bookstore> 
    

       解析: <bookstore> (文档节点)        <author>J K. Rowling</author> (元素节点)        lang="en" (属性节点)         J K. Rowling(基本值)    #一般把基本值或者节点叫做项目。

        节点关系有父和子之分:        

     <book>    #父
       <title>Harry Potter</title>    #是book的子,同级的项目叫做同胞,title,auther,year 和price叫做同胞
       <author>J K. Rowling</author>    #同上
       <year>2005</year>    #同上
       <price>29.99</price>    #同上
     </book>
    

        超过一级的父子节点关系叫做先辈和后代,比如父的父,子的子等

    3,选取节点

    XML实例:

    <?xml version="1.0" encoding="ISO-8859-1"?>
    
     <bookstore>
    
     <book>
       <title lang="eng">Harry Potter</title>
       <price>29.99</price>
     </book>
    
     <book>
       <title lang="eng">Learning XML</title>
       <price>39.95</price>
     </book>
    
     </bookstore> 
    #选取节点的规则

    nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。

        节点选取实例:

    bookstore	选取 bookstore 元素的所有子节点。
    /bookstore	选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
    bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
    //book	选取所有 book 子元素,而不管它们在文档中的位置。
    bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
    //@lang	选取名为 lang 的所有属性。
    /bookstore/book/price/text() text()选取所有文本的意思

     注意:如果 XPath 的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于树中不同的层级也会被选出来。

        谓语:

    /bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
    /bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
    /bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
    /bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
    //title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
    //title[@lang='eng']	选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
    /bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
    /bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
    

      

        如何选取未知的节点:

    *	匹配任何元素节点。
    @*	匹配任何属性节点。
    node()	匹配任何类型的节点。
    

      /bookstore/* 选取 bookstore 元素的所有子元素。 //* 选取文档中的所有元素。 //title[@*] 选取所有带有属性的 title 元素。

        路径表达式中使用"|"运算符,您可以选取若干个路径:   

            //book/title | //book/price 选取book 元素的所有 title 和 price 元素。
    
            //title | //price 选取文档中的所有 title 和 price

    4 轴

        通过 XPath 轴可以定义相对于当前节点的节点集。

    ancestor	选取当前节点的所有先辈(父、祖父等)。
    ancestor-or-self	选取当前节点的所有先辈(父、祖父等)以及当前节点本身。
    attribute	选取当前节点的所有属性。
    child	选取当前节点的所有子元素。
    descendant	选取当前节点的所有后代元素(子、孙等)。
    descendant-or-self	选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
    following	选取文档中当前节点的结束标签之后的所有节点。
    namespace	选取当前节点的所有命名空间节点。
    parent	选取当前节点的父节点。
    preceding	选取文档中当前节点的开始标签之前的所有节点。
    preceding-sibling	选取当前节点之前的所有同级节点。
    self	选取当前节点。
    

    6 实例

    <?xml version="1.0" encoding="ISO-8859-1"?>
    
     <bookstore>
    
     <book category="COOKING">
       <title lang="en">Everyday Italian</title>
       <author>Giada De Laurentiis</author>
       <year>2005</year>
       <price>30.00</price>
     </book>
    
     <book category="CHILDREN">
       <title lang="en">Harry Potter</title>
       <author>J K. Rowling</author>
       <year>2005</year>
       <price>29.99</price>
     </book>
    
     <book category="WEB">
       <title lang="en">XQuery Kick Start</title>
       <author>James McGovern</author>
       <author>Per Bothner</author>
       <author>Kurt Cagle</author>
       <author>James Linn</author>
       <author>Vaidyanathan Nagarajan</author>
       <year>2003</year>
       <price>49.99</price>
     </book>
    
     <book category="WEB">
       <title lang="en">Learning XML</title>
       <author>Erik T. Ray</author>
       <year>2003</year>
       <price>39.95</price>
     </book>
    
     </bookstore> 
    

        选取所有的title:/bookstore/book/title

        选取第一个book下面的title:/bookstore/book[1]/title

        选取price节点中所有的文本:/bookstore/book/price/text()

        选取价格高于35的所有price节点的文本:/bookstore/book[price>35]/price

        选取价格节点高于35的所有title节点:/bookstore/book[price>35]/title

        

        

     

  • 相关阅读:
    第六课 使用oflash软件烧写bin文件至开发板
    Linux查看、添加、修改PATH环境变量
    第七课 Linux裸机开发+SourceInsight3.5使用+notepad++使用
    第五课 Linux高级命令
    数组的方法总结
    浅谈 return false 和preventDefault stopPropagation stopImmediatePropagation 的正确用法
    实时统计输入的文字
    滚轮滚动事件
    window.onload和DOMReady
    JS获取浏览器可视区域的尺寸
  • 原文地址:https://www.cnblogs.com/0-lingdu/p/9383624.html
Copyright © 2011-2022 走看看