zoukankan      html  css  js  c++  java
  • python去除html标签及标签里面的内容

    使用正则表达式去除htm标签,只取出标签里面的文本内容

    >>> import re
    >>> 
    >>> html='<p class="txt" node-type="feed_list_content" nick-name="人民日报">
                        【<a href="http://s.weibo.com/weibo?q=" target="_blank">#13个求职新方向#</a>!有你心动的职业吗<img src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/aa/2018new_bingbujiandan_org.png" title="[并不简单]" alt="[并不简单]" class="face">】近日,人社部、市场监管总局、统计局联合发布13个新职业,既有现在流行的人工智能、<em class="s-color-red">大</em><em class="s-color-red">数据</em>、云计算、物联网等工程技术人员,也有电子竞技员、无人机驾驶员等新颖工种…你心动了吗?哪些学校开设了相关专业值得关注?戳图了解↓↓转给正在求学的TA!                </p>'
    >>> 
    >>> 
    >>> pre = re.compile('>(.*?)<')
    >>> text= ''.join(pre.findall(html))
    >>> print(text)
    #13个求职新方向#!有你心动的职业吗】近日,人社部、市场监管总局、统计局联合发布13个新职业,既有现在流行的人工智能、大数据、云计算、物联网等工程技术人员,也有电子竞技员、无人机驾驶员等新颖工种…你心动了吗?哪些学校开设了相关专业值得关注?戳图了解↓↓转给正在求学的TA!
    
  • 相关阅读:
    C语言的AES加密
    curl指定域名的IP
    gdb调试知识
    C++获取寄存器eip的值
    C++嵌入lua
    [置顶] python字典和nametuple互相转换例子
    【python】redis基本命令和基本用法详解
    xshell登录到CentOS7上时出现“The remote SSH server rejected X11 forwarding request.
    selinue引起的ssh连接错误
    SCP和SFTP相同点和区别
  • 原文地址:https://www.cnblogs.com/Jaryer/p/13602987.html
Copyright © 2011-2022 走看看