zoukankan      html  css  js  c++  java
  • lxml.etree 教程5:Using XPath to find text

    另外一个获取树里面文本内容的方法是XPath,它一样可以把文本内容提取到列表中。

    >>> print(html.xpath("string()")) # lxml.etree only!
    TEXTTAIL
    >>> print(html.xpath("//text()")) # lxml.etree only!
    ['TEXT', 'TAIL']
    

     如果你比较频繁使用这个方式,可以包装成一个函数。

    >>> build_text_list = etree.XPath("//text()") # lxml.etree only!
    >>> print(build_text_list(html))
    ['TEXT', 'TAIL']
    

     注意到一个XPath返回的字符串结果是一个特殊的“聪明”的对象,它知道它来自何处。

    >>> texts = build_text_list(html)
    >>> print(texts[0])
    TEXT
    >>> parent = texts[0].getparent()
    >>> print(parent.tag)
    body
    
    >>> print(texts[1])
    TAIL
    >>> print(texts[1].getparent().tag)
    br
    

     你也可以找出它常规的文本内容或尾部文本:

    >>> print(texts[0].is_text)
    True
    >>> print(texts[1].is_text)
    False
    >>> print(texts[1].is_tail)
    True
    
    >>> stringify = etree.XPath("string()")
    >>> print(stringify(html))
    TEXTTAIL
    >>> print(stringify(html).getparent())
    None
    
  • 相关阅读:
    Python学习笔记(三)
    Python学习笔记(二)
    GDUFE ACM1159
    GDUEFE ACM1003 练手
    GDUFE ACM1033
    GDUFE ACM1128
    GDUFE ACM1002
    EDUFE ACM1050
    GDUFE ACM1007
    GDUFE ACM1003
  • 原文地址:https://www.cnblogs.com/bluescorpio/p/3131202.html
Copyright © 2011-2022 走看看