zoukankan      html  css  js  c++  java
  • 使用HTMLParser去除HTML源文件中的标签和属性

    使用HTMLParser去除HTML源文件中的标签和属性

    在一些情况下,比如输出一片文章的摘要,前面的若干个字,但是存储在数据库中的文章又 偏偏是带有格式的HTML。这种情况下,可以使用下面这种方法将HTML中所有的标签剔除干净。

    from HTMLParser import HTMLParser

    def strip_tags(html):
    html=html.strip()
    html=html.strip("\n")
    result=[]
    parse=HTMLParser()
    parse.handle_data=result.append
    parse.feed(html)
    parse.close()
    return "".join(result)

    if __name__ == "__main__":
    html = """<a name="val">123</a><input type="text" name="afdsa" /><b><br><u>fffffff<br></u></b><div style="text-align: left;"><b><u>fdafd</u></b><br><br></div>
    """
    print strip_tags(html)



  • 相关阅读:
    软链接和硬链接
    Hive的基本常识
    Hadoop
    Docker技术
    人生苦短,我用Python(6)
    人生苦短,我用Python(5)
    人生苦短,我用Python(4)
    openssl telnet openssh
    iptables
    http与httpd
  • 原文地址:https://www.cnblogs.com/pylemon/p/2260761.html
Copyright © 2011-2022 走看看