最近用xpath,刚开始有很多问题
用测试代码跑的时候经常获取不到值。
第一种情况:
page= etree.parse('text.html') #text.html为一个html文件 <class 'lxml.etree._ElementTree'>
page = etree.HTML(html) #heml为一个字符串
<class 'lxml.etree._Element'>
一开始通过使用字符串进行解析,通过page.xpath()进行元素获取,找不到值,后面发现这个type是“lxml.etree._Element” ,而不是“lxml.etree._ElementTree”
获取所有元素的时候两个都行,但是通过id或者class获取时下面的那个获取不到。使用第一种就行。
第二种情况:
/ 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 这两个符号是官网解释。
下面是我的代码 html.xpath('/div[contains(@id,"test")]') html.xpath('//div[contains(@id,"test")]') 发现第一个中不到元素,第二个可以。
附上html代码:
<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book class="ook"> book1111 <title lang="eng">Harry Potter</title> <price id='11'>29.99</price> </book> <book class="ook"> book2222 <title lang="eng">Learning XML</title> <price>39.95</price> </book> <div id="test" class="rr"><title id="eng">Learning XML</title> </div> </bookstore>
目前存在这些问题体,后面遇到再加。