zoukankan      html  css  js  c++  java
  • Python之使用正则函数处理文本里的杂质

    # -*- coding: utf-8 -*-
    import re


    class Tool():
    # 去除img标签,7位长空格
    removeImg = re.compile('<img.*?>| {7}|')
    # 删除span标签
    removeSpan = re.compile('<span.*?>| {7}|')
    # 删除超链接标签
    removeAddr = re.compile('<a.*?>|</a>')
    # 把换行的标签换为
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    # 将表格制表<td>替换为
    replaceTD = re.compile('<td>')
    # 把段落开头换为 加空两格
    replacePara = re.compile('<p.*?>')
    # 将换行符或双换行符替换为
    replaceBR = re.compile('<br><br>|<br>')
    # 将其余标签剔除
    removeExtraTag = re.compile('<.*?>')

    def replace(self, content):
    content = re.sub(self.removeImg, "", content)
    content = re.sub(self.removeSpan, "", content)
    content = re.sub(self.removeAddr, "", content)
    content = re.sub(self.replaceLine, " ", content)
    content = re.sub(self.replaceTD, " ", content)
    content = re.sub(self.replacePara, " ", content)
    content = re.sub(self.replaceBR, " ", content)
    content = re.sub(self.removeExtraTag, "", content)
    # strip()将前后多余内容删除
    return content.strip()
  • 相关阅读:
    鼠标经过显示边框
    特殊字符
    HTML 列表
    embed 引入网上视频
    锚点定位
    盒子阴影
    Map的四种遍历方式
    Glide的 java.lang.RuntimeException: Expected instanceof GlideModule, but found:X.GlideModule@2e4554f
    Java标识符的命名规则
    django入门与实践
  • 原文地址:https://www.cnblogs.com/GUIDAO/p/7536507.html
Copyright © 2011-2022 走看看