zoukankan      html  css  js  c++  java
  • python_爬虫_str类型的html文本去标签

    # from HTMLParser import HTMLParser
    from html.parser import HTMLParser # 将字符串格式的html文本转成html
    
    class MyHTMLParser(HTMLParser):
        def __init__(self):
            HTMLParser.__init__(self)
            self.data = []
        def handle_startendtag(self, tag, attrs):
            pass
        def handle_endtag(self, tag):
            pass
        def handle_data(self, data):
            if data.count('
    ') == 0:
                self.data.append(data)
    
    if __name__ == '__main__':
        parser = MyHTMLParser()
        for i in conn(): # 获取文章
            content = i[0]
            parser.feed(content)
            parser.data # 通过这个可以获取去标签后的内容列表

    参考:https://www.cnblogs.com/AlwinXu/p/5492033.html

  • 相关阅读:
    FileUpload组件
    国际化
    dbutils
    BeanUtils
    c3p0连接池]
    JDBC代码模板
    JDBC基础与连接sql2012
    JSP以及JSP解析原理
    Tomcat使用,部署
    JAVA---反射
  • 原文地址:https://www.cnblogs.com/hejianlong/p/9593343.html
Copyright © 2011-2022 走看看