如果还不明白正则表达式中(?:)的使用,请看:http://www.knowsky.com/297.html
正则表达式的终极能力 - 递归
今天在QQ问liuzhi如何写一个匹配递归式的正则表达式时,没想到那家伙居然就回答“递归消除”,让我去看编译原理的书。(nnd,他肯定想到正则表达式的实现去了...)
找遍了正则表达式的语法都没发现和递归有关或者可以间接用来实现递归的,不过今天在硬盘找到一个电子书(只有一章),居然有讲解了这个。窃喜,记录之。
例子是:
\((?>[^()]+|\((?
这个是匹配有效的最多括号的语法,比如:
before (nope (yes (here) okay) after
匹配到的是:(yes (here) okay)
简单翻译了下这个文档:
微软公司已经包含了一个有趣的创新来匹配稳定的构造(历史上,这是正则表达式所做不到的)。这并不容易掌握 — 尽管这节较短,但是注意,它非常的晦涩难懂。
从一个例子开始可能更简单一些,所以我用这段代码作为开始:
Regex r = new Regex(@"\((?>[^()]+|\((?<DEPTH>)|\)(?<-DEPTH>))*(?(DEPTH)(?!))\)");
这能匹配到首个完全配对的括号组,比如"before (nope (yes (here) okay) after"里面的"(yes (here) okay)"。注意第一个左括号没有被匹配到,因为没有和它匹配的右括号。
下面是它如何运作的概览:
1、在每个"("被匹配到的时候,"(?<DEPTH>)"在这里加上一,告诉正则表达式系统当前括号嵌套的深度( 正则表达式开头的"\("不包括在这里)。
2、在每个")"被匹配到的时候,"(?<-DEPTH>)"从深度值内减一。
3、"(?(DEPTH)(?!))"保证在匹配最后一个右括号之前深度为零。
它能工作的原因在于引擎的回逆堆栈保存了匹配成功的组的轨迹。"(?<DEPTH>)"不过是一个带有名称的分组构造,它将总是匹配成功(不匹配任何东西)。而由于它被紧接着放在"\("之后,它的成功匹配(仍然在堆栈上直到被移除)被用于左括号的计数。
译注:还有一种写法是"(?<DEPTH>\()",我个人比较喜欢这种形式,而不是"\((?<DEPTH>)"。后面的"\)(?<-DEPTH>)"也是一样。
这样,匹配成功了的名为"DEPTH"的分组的计数在回逆堆栈上被建立起来。而当找到右括号的时候我们还希望从深度值减一,这是由.NET特别的语法构造 "(?<-DEPTH>)"实现的,它将从堆栈上移除最近匹配的"DEPTH"分组。如果堆栈上已经没有记录,"(?<- DEPTH>)"分组匹配失败,从而防止了正则表达式系统匹配多余的右括号。
最后,"(?(DEPTH)(?!))"是一个用于"(?!)"的断言,如果"DEPTH"分组到目前为止还是成功的话。如果当我们匹配到这里时还是成功 的,这里有个未配对的左括号还没有被"(?<-DEPTH>)"移除。在这种情况,我们希望停止匹配(我们不希望匹配一个未配对的括号),所 以我们使用"(?!)",它是一个“零宽度负预测先行断言”,仅当子表达式不在此位置的右侧匹配时才继续匹配。
这就是在.NET的正则表达式实现中匹配嵌套结构的方法。