zoukankan      html  css  js  c++  java
  • lxml.etree去除子节点

    去除etree中的某个子节点有两种方法:

    1、parentnode.remove(node)

    2、etree.strip_elements(html, 'element_name', with_tag=True/False)

    但是在实际使用的时候如果要删除的node.tail不为空,则会把node.tail也删除掉,导致不必要的丢失,解决办法如下:

                parent = node.getparent()
                    if parent is not None:
                        parent_text = re.sub('s', '', get_child_text(parent))
                        text = node.tail if anchor.tail else ''
                        previous = node.getprevious()
                        if previous is not None:
                            previous.tail = (previous.tail or '') + text 
                        else:
                            parent.text = (parent.text or '') + text 
                        parent.remove(node)
                        break            
    

     通过在前序节点中保留node.tail,可以在删除node的同时,保留node.tail的内容。

  • 相关阅读:
    团队冲刺第五天
    每日学习
    团队冲刺第四天
    团队冲刺第三天
    每日学习
    2021.4.12
    2021.4.10
    2021.3.18
    2021.3.15
    2021.3.14
  • 原文地址:https://www.cnblogs.com/chybot/p/5046258.html
Copyright © 2011-2022 走看看