zoukankan      html  css  js  c++  java
  • 2019/4/3 Python今日收获

    Python day20——在Python中使用正则表达式去掉字符串里的html标签

    有时候会获得一些带html标签的字符串,需要把html标签去掉,获得干净的字符串,这时候可以使用正则表达式。

    代码如下:

    import re
     
    htmeString = '''<ul id="TopNav"><li><a href="/EditPosts.aspx" id="TabPosts">随笔</a></li>
            <li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>
            <li><a href="/EditDiary.aspx" id="TabDiary">日记</a></li>
            <li><a href="/Feedback.aspx" id="TabFeedback">评论</a></li>
            <li><a href="/EditLinks.aspx" id="TabLinks">链接</a></li>
            <li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相册</a></li>
            <li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>
            <li><a href="/Configure.aspx" id="TabConfigure">设置</a></li>
            <li><a href="/Preferences.aspx" id="TabPreferences">选项</a></li></ul>'''
     
     
    # 方法 1
    pre = re.compile('>(.*?)<')
    s1 = ''.join(pre.findall(htmlString))
    print(s1)   # '随笔文章日记评论链接相册文件设置选项'
     
     
    # 方法 2
    s2 = re.sub(r'<.*?>','',htmlString)
    print(s2)   # '
    
    随笔
    文章
    日记
    评论
    链接
    相册
    文件
    设置
    选项
    
    '
     
    # 再用str.replace()函数去掉'
    '
    s2 = s2.replace('
    ','')
    print(s2)   # '随笔文章日记评论链接相册文件设置选项'
  • 相关阅读:
    vim初试(Hello World)
    CSP201809-2 买菜(超简单的方法!!)
    CSP202006-2 稀疏向量
    CSP202012-2 期末预测之最佳阈值
    浮点数表示
    结构体
    全排列-康托展开及逆展开
    CA-031 上手Games101环境 Games101环境怎么配置
    计算机图形学 实验四 AET算法
    计算机图形学 实验三 梁氏裁剪算法
  • 原文地址:https://www.cnblogs.com/redheart/p/10651980.html
Copyright © 2011-2022 走看看