zoukankan      html  css  js  c++  java
  • 去除HTML中的标签内容

    采集后的数据都带有'<>'html标签:

    <img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院
     
    在这里只要将所有带<>去除即可:
     
    dr = re.compile(r'<[^>]+>',re.S)
    dd = dr.sub('',Html)
     
    完整的python脚本:
    第一个函数:将一个字段中的刮号去除
    第二个函数:将html中的所有标签去除
     
  • 相关阅读:
    反射
    定义类
    集合list,set,Map
    API util
    进程与多线程
    泛型
    API string
    JDBC存储过程
    预处理
    JDBC
  • 原文地址:https://www.cnblogs.com/iamjqy/p/6777899.html
Copyright © 2011-2022 走看看