from lxml import etree s="""<div> <ul> <li class="item-0"><a href="代码link1.html">erfirst item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div>""" res=etree.HTML(s) #将指定的字符串进行解析 print(etree.tostring(res)) red=res.xpath("/html/body/div/ul/li/a/@href") #根据指定的xpath语法来查找相关内容 #//从全局进行查找的标签 #/从当前标签下查找指定的标签 #[num]表示要父级目录下的指定顺序标签 #[限制条件]根据限制条件找到指定的标签 #text() 打印标签中的内容 #@标签属性 指定相关属性 print(red) # for i in res: # #显示element对象需要用到etree.tostring函数 # print(etree.tostring(i,encoding="utf8").decode("utf8"))