XML:一种可扩展标记语言,HTML就是一种XML
XPATH:也是一个W3C标准,在所有XML中均可使用
XPATH的路径规则
- /表示跟节点
- /html 表示html这个元素
- /html/body 表示body这个元素
- /html/body/div 表示body里面的div
- //div 表示所有的div,不管它的父亲是什么
- /a/b/c/d/e/f/g 如果你只想选取c下面的g,那么可以//c//g
- /a/b|/c |来表示或者的关系
XPATH属性规则
- @表示属性
- []表示额外条件
- 所以 //div[@class=’content’]
当然 //div[@id=’oo’]
//input[@value=’2’]
甚至 //input[@value>8]
强大的额外规则
- /body/div[1] body里的第一个div
- /body/div[last()] body里的最后一个div
- /body/div[last()-1] body里的倒数第二个div
- /body/div[position()<3] body里面前两个div
- //div[@*] 所有带属性的div
- /body/* body的所有子元素
- //* 文档中所有的元素