from pyquery import PyQuery as pq html = """ <div> <ul> <li class="item-01"><a href="link1,html">one</a></li> <li class="item-1"><a href="link1,html">two</a></li> <li class="item-inactive"><a href="link1,html">three</a></li> <li class="item-1"><a href="link1,html">four</a></li> <li class="item-0"><a href="link1,html">five</a> </ul> </div> """ # 直接返回所有匹配的元素(html格式) 还会自动补全 doc = pq(html) # 可以传入网址以及本地文件 # print(doc('li')) # print(type(doc('li')) ) # 本地文件 filename # doc = pq(filename='test.html') # print(doc('li')) # 网址 url # doc = pq(url='http://www.baidu.com') # print(doc('div')) # 父节点 祖先节点 子节点 子孙节点 li = doc(".item-01") # container = li.parent() # print(container) # container = li.parents() # print(container) # container = li.children() # print(container) container = li.find('a') # 必须传参 print(container) # 兄弟节点 sib = li.siblings() print(sib) # 遍历items() for lis in sib.items(): print(lis) # 属性attr 只返回第一个匹配的 文本text() print(li.children('a').attr('href')) print(li.text()) print(' ') # 修改class属性 可以多个对象操作 li.add_class('added') print(li) li.remove_class('added') print(li) # attr text html li.children('a').attr('href', 'www.baidu.com') # 一个参数是获取 两个参数是赋值 print(li) li.text("哈哈") print(li) li.html("hehe") print(li) # remove()移除元素 print(' ') # doc.find('li').remove() # print(doc) # 伪类选择器 跟css一样 print(doc.find('li:first-child'))