# from HTMLParser import HTMLParser from html.parser import HTMLParser # 将字符串格式的html文本转成html class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.data = [] def handle_startendtag(self, tag, attrs): pass def handle_endtag(self, tag): pass def handle_data(self, data): if data.count(' ') == 0: self.data.append(data) if __name__ == '__main__': parser = MyHTMLParser() for i in conn(): # 获取文章 content = i[0] parser.feed(content)
parser.data # 通过这个可以获取去标签后的内容列表
参考:https://www.cnblogs.com/AlwinXu/p/5492033.html