zoukankan html css js c++ java

使用HTMLParser去除HTML源文件中的标签和属性

在一些情况下，比如输出一片文章的摘要，前面的若干个字，但是存储在数据库中的文章又偏偏是带有格式的HTML。这种情况下，可以使用下面这种方法将HTML中所有的标签剔除干净。

from HTMLParser import HTMLParser

def strip_tags(html):
    html=html.strip()
    html=html.strip("\n")
    result=[]
    parse=HTMLParser()
    parse.handle_data=result.append
    parse.feed(html)
    parse.close()
    return "".join(result)

if __name__ == "__main__":
    html = """<a name="val">123</a><input type="text" name="afdsa" /><b><br><u>fffffff<br></u></b><div style="text-align: left;"><b><u>fdafd</u></b><br><br></div>
"""
    print strip_tags(html)

查看全文

相关阅读:
Python 脚本如何执行另一个脚本
 Yarn集群的搭建、Yarn的架构和WordCount程序在集群提交方式
 Mapreduce概述和WordCount程序
 HDFS及其各组件的机制
 HDFS常用API（2）
HDFS常用API（1）
HDFS分布式文件系统的常用命令行操作
 大数据及Hadoop的概述
 谷歌浏览器加载速度慢的解决办法！！！
Idea中lombok不生效原因

原文地址：https://www.cnblogs.com/pylemon/p/2260761.html