zoukankan      html  css  js  c++  java
  • HTML批量修改——正则表达式实践

    1.问题描述

    如下所示的一段HTML代码:

    ...
    <h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解</span><span style="font-family: Calibri;">ROS</span><span style="font-family: 宋体;">架构 &nbsp; &nbsp;&nbsp; <br></span></span></h2>
    ...
    

    想将其整体转换为Markdown的标题格式:
    #1.从文件系统级理解

    2.初步研究

    使用正则表达式<h2.*>,检索结果为:

    <h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解</span><span style="font-family: Calibri;">ROS</span><span style="font-family: 宋体;">架构 &nbsp; &nbsp;&nbsp; <br></span></span></h2>
    

    这样可以做到检索到所需要的代码段,但是还没能做到将所需的文字提取并缓存,以供替换。

    3.进一步研究

    3.1提取2.*中的序号*

    若要提取出2.*中的序号*,需要使用到子表达式()。另外,由于*是贪婪的,必须使用?使表达式实现最小匹配。
    使用正则表达式<h2.*?>,检索结果为:<h2 align="justify">。由于表达式非贪婪,只检索到第一个'>'便结束了。为了检测到第二个'>',我们将'.*?>'作为子表达式,条件为检索到2次。由于此结果我们不会使用,因此加上'?:'使之忽略对此匹配的捕捉。
    使用<h2(?:.*?>){2},检索结果为:<h2 align="justify"><span style="background-color: #99ccff;">。此时,只需要加入对'2.'的检索,即可将定位在2.*中的*处。由于.是特殊字符,加上''进行检索。
    使用<h2(?:.*?>){2}2.,检索结果为:<h2 align="justify"><span style="background-color: #99ccff;">2.。此时,使用对数字的检索'[1-9]'并加以限定为检索到1次,再加上子表达式并缓存其结果即可。
    使用<h2(?:.*?>){2}2.([1-9]){1}.,检索结果为:<h2 align="justify"><span style="background-color: #99ccff;">2.1.,同时'2.1'中的'1'已被缓存为'1'。

    3.2提取标题

    标题是第二个需要提取的内容,也即HTML代码中的”从文件系统级理解“。上文中已经提到的内容不会重复。
    首先,定位到汉字之前。使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>,检索结果为:<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">
    然后,提取汉字内容。使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>(w*?)<,检索结果为:<h2 align="justify"><span style="background-color: #99ccff;">2.1.<span style="font-family: 宋体;">从文件系统级理解,同时标题被缓存为'2'。
    注意:'w'在某些操作系统/环境的作用下,不支持检索汉字。因此也可以使用<h2(?:.*?>){2}2.([1-9]){1}..*?>(.*?)<

    3.3选取全文

    选取全文只需要在之前正则表达式的基础之上,加入对标题后字符的检索即可。
    使用正则表达式<h2(?:.*?>){2}2.([1-9]){1}..*?>(w*?)<.*>即可。

    3.4替换

    替换同样不复杂,按照Markdown格式,替换为##1.2。替换结果:##1.从文件系统级理解
    注意:在部分软件/语言中,可能需要使用##$1.$2

    参考资料

    正则表达式——看的最远的地方

  • 相关阅读:
    __getattribute__()、__getattr__()、__setattr__()、__delattr__()
    Python: Catch multiple exceptions in one line (except block)
    Python中的__new__和__init__
    使用sphinx生成Python文档
    Windows下干活儿辅助软件
    Python的Descriptor和Property混用
    Solved: Qt Library LNK 2001 staticMetaObject error
    OS sysbench压力测试
    Oracle 数据库 sysbench 压力测试
    MySQL 数据库 Sysbench压力测试
  • 原文地址:https://www.cnblogs.com/letisl/p/11884608.html
Copyright © 2011-2022 走看看