zoukankan      html  css  js  c++  java
  • [sS]*?懒惰模式特殊情形

    通常理解[sS]*?X (X代表任意指定字符) 表示匹配任何字符的懒惰模式,一旦遇到后面出现的X便停止匹配,但实际不是如此,会尽可能的把后面的内容也匹配进去。如:

    表达式 <tr[sS]*?>s*<td>[sS]*?</td>s*<td>[sS]*?</td>s*</tr> 本来想匹配如下<tr></tr>之间的内容,

    <tr style="text">

    <td>FID</td>

    <td>0</td>

    </tr>

    却也能匹配

    <tr style="text-align:center;font-weight:bold;background:#9CBCE2">

    <td> </td>

    </tr>

    <tr>

    <td>

    <table style="font-family:Arial,Verdana,Times;font-size:12px;text-align:left;100%;border-spacing:0px; padding:3px 3px 3px 3px">

    <tr>

    <td>FID</td>

    <td>0</td>

    </tr>

    原因就在于虽然是懒惰模式,但[sS]*?</td>并未匹配到第一个</td>就结束,可能的原因是,系统发现如果在第一个</td>处就结束,前面的内容就不满足搜索条件,于是将[sS]*?继续往后匹配,直到FID</td>,使后面的内容尽量多得匹配表达式。

    这可能是正则表达式[sS]*?的一个机制,最大可能的匹配尽量多的内容,以符合整个表达式的条件。并不局限于遇到后续第一个指定字符就停止。

    解决方法:不需要[sS]*匹配换行时,用.代替[sS]或[wW]*等。如上述表达式写为

    <tr.*?>s*<td>.*?</td>s*<td>.*?</td>s*</tr>

    就能准确匹配到<tr></tr>间的内容

  • 相关阅读:
    用户价值和RFM模型
    产品生命周期(Product Life Circle,PLC)
    金字塔原理(Pyramid Principle)
    docker 技术
    网易实战+scrapy-redis配置
    uiautomator工具使用(7)
    adb命令行工具(6)
    Android 开发工具安装(5)
    appium 移动端自动化测试工具(4)
    mitmdump 详解(3)
  • 原文地址:https://www.cnblogs.com/mol1995/p/10997400.html
Copyright © 2011-2022 走看看