zoukankan      html  css  js  c++  java
  • [sS]*?懒惰模式特殊情形

    通常理解[sS]*?X (X代表任意指定字符) 表示匹配任何字符的懒惰模式,一旦遇到后面出现的X便停止匹配,但实际不是如此,会尽可能的把后面的内容也匹配进去。如:

    表达式 <tr[sS]*?>s*<td>[sS]*?</td>s*<td>[sS]*?</td>s*</tr> 本来想匹配如下<tr></tr>之间的内容,

    <tr style="text">

    <td>FID</td>

    <td>0</td>

    </tr>

    却也能匹配

    <tr style="text-align:center;font-weight:bold;background:#9CBCE2">

    <td> </td>

    </tr>

    <tr>

    <td>

    <table style="font-family:Arial,Verdana,Times;font-size:12px;text-align:left;100%;border-spacing:0px; padding:3px 3px 3px 3px">

    <tr>

    <td>FID</td>

    <td>0</td>

    </tr>

    原因就在于虽然是懒惰模式,但[sS]*?</td>并未匹配到第一个</td>就结束,可能的原因是,系统发现如果在第一个</td>处就结束,前面的内容就不满足搜索条件,于是将[sS]*?继续往后匹配,直到FID</td>,使后面的内容尽量多得匹配表达式。

    这可能是正则表达式[sS]*?的一个机制,最大可能的匹配尽量多的内容,以符合整个表达式的条件。并不局限于遇到后续第一个指定字符就停止。

    解决方法:不需要[sS]*匹配换行时,用.代替[sS]或[wW]*等。如上述表达式写为

    <tr.*?>s*<td>.*?</td>s*<td>.*?</td>s*</tr>

    就能准确匹配到<tr></tr>间的内容

  • 相关阅读:
    深入理解系统调用
    基于mykernel 2.0编写一个操作系统内核
    交互式多媒体图书平台的设计与实现
    Ubuntu下VSCode调试环境搭建指南-C语言篇
    码农的自我修养之必备技能 学习笔记
    工程化编程实战callback接口学习笔记
    CentOS7.4网络配置
    R-CNN
    CUDA整理
    CUDA by Example 第四章 julia集
  • 原文地址:https://www.cnblogs.com/mol1995/p/10997400.html
Copyright © 2011-2022 走看看