zoukankan      html  css  js  c++  java
  • 001_正则基础之——捕获组(capture group)

    1        概述

    1.1     什么是捕获组

    捕获组就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用。当然,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部。

    捕获组有两种形式,一种是普通捕获组,另一种是命名捕获组,通常所说的捕获组指的是普通捕获组。语法如下:

    普通捕获组:(Expression)

    命名捕获组:(?<name>Expression)

    普通捕获组在大多数支持正则表达式的语言或工具中都是支持的,而命名捕获组目前只有.NET、PHP、Python等部分语言支持,据说Java会在7.0中提供对这一特性的支持。上面给出的命名捕获组的语法是.NET中的语法,另外在.NET中使用(?’name’Expression)与使用(?<name>Expression)是等价的。在PHP和Python中命名捕获组语法为:(?P<name>Expression)。

    另外需要说明的一点是,除(Expression)和(?<name>Expression)语法外,其它的(?...)语法都不是捕获组。

    1.2     捕获组编号规则

    编号规则指的是以数字为捕获组进行编号的规则,在普通捕获组或命名捕获组单独出现的正则表达式中,编号规则比较清晰,在普通捕获组与命名捕获组混合出现的正则表达式中,捕获组的编号规则稍显复杂。

    在展开讨论之前,需要说明的是,编号为0的捕获组,指的是正则表达式整体,这一规则在支持捕获组的语言中,基本上都是适用的。下面对其它编号规则逐一展开讨论。

    1.2.1  普通捕获组编号规则

    如果没有显式为捕获组命名,即没有使用命名捕获组,那么需要按数字顺序来访问所有捕获组。在只有普通捕获组的情况下,捕获组的编号是按照“(”出现的顺序,从左到右,从1开始进行编号的 。

    正则表达式:(d{4})-(d{2}-(dd))

      

    上面的正则表达式可以用来匹配格式为yyyy-MM-dd的日期,为了在下表中得以区分,月和日分别采用了d{2}和dd这两种写法。

    用以上正则表达式匹配字符串:2008-12-31,匹配结果为:

    编号

    命名

    捕获组

    匹配内容

    0

     

    (d{4})-(d{2}-(dd))

    2008-12-31

    1

     

    (d{4})

    2008

    2

    (d{2}-(dd))

    12-31

    3

    (dd)

    31

    1.2.2  命名捕获组编号规则

    命名捕获组通过显式命名,可以通过组名方便的访问到指定的组,而不需要去一个个的数编号,同时避免了在正则表达式扩展过程中,捕获组的增加或减少对引用结果导致的不可控。

    不过容易忽略的是,命名捕获组也参与了编号的,在只有命名捕获组的情况下,捕获组的编号也是按照“(”出现的顺序,从左到右,从1开始进行编号的 。

    正则表达式:(?<year>d{4})-(?<date>d{2}-(?<day>dd))

     

    用以上正则表达式匹配字符串:2008-12-31

    匹配结果为:

    编号

    命名

    捕获组

    匹配内容

    0

     

    (?<year>d{4})-(?<date>d{2}-(?<day>dd))

    2008-12-31

    1

    year

    (?<year>d{4})

    2008

    2

    date

    (?<date>d{2}-(?<day>dd))

    12-31

    3

    day

    (?<day>dd)

    31

    1.2.3  普通捕获组与命名捕获组混合编号规则

    当一个正则表达式中,普通捕获组与命名捕获组混合出现时,捕获组的编号规则稍显复杂。对于其中的命名捕获组,随时都可以通过组名进行访问,而对于普通捕获组,则只能通过确定其编号后进行访问。

    混合方式的捕获组编号,首先按照普通捕获组中“(”出现的先后顺序,从左到右,从1开始进行编号,当普通捕获组编号完成后,再按命名捕获组中“(”出现的先后顺序,从左到右,接着普通捕获组的编号值继续进行编号。

    也就是先忽略命名捕获组,对普通捕获组进行编号,当普通捕获组完成编号后,再对命名捕获组进行编号。

    正则表达式:(d{4})-(?<date>d{2}-(dd))

     

    用以上正则表达式匹配字符串:2008-12-31,匹配结果为:

    编号

    命名

    捕获组

    匹配内容

    0

     

    (d{4})-(?<date>d{2}-(dd))

    2008-12-31

    1

     

    (d{4})

    2008

    3

    date

    (?<date>d{2}-(dd))

    12-31

    2

    (dd)

    31

    2       捕获组的引用

    对捕获组的引用一般有以下几种:

    1)       正则表达式中,对前面捕获组捕获的内容进行引用,称为反向引用;

    2)       正则表达式中,(?(name)yes|no)的条件判断结构;

    3)       在程序中,对捕获组捕获内容的引用。

    2.1     反向引用

    捕获组捕获到的内容,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。

    反向引用的作用通常是用来查找或限定重复,限定指定标识配对出现等等。

    对于普通捕获组和命名捕获组的引用,语法如下:

    普通捕获组反向引用:k<number>,通常简写为 umber

    命名捕获组反向引用:k<name>或者k'name'

    普通捕获组反向引用中number是十进制的数字,即捕获组的编号;命名捕获组反向引用中的name为命名捕获组的组名。

    反向引用涉及到的内容比较多,后续单独说明。

    #参考:http://blog.csdn.net/lxcnn/article/details/4146148

  • 相关阅读:
    mysql索引
    springboot mybatis 后台框架平台 shiro 权限 集成代码生成器
    java 企业网站源码模版 有前后台 springmvc SSM 生成静态化
    java springMVC SSM 操作日志 4级别联动 文件管理 头像编辑 shiro redis
    activiti工作流的web流程设计器整合视频教程 SSM和独立部署
    .Net Core中的ObjectPool
    文件操作、流相关类梳理
    .Net Core中的配置文件源码解析
    .Net Core中依赖注入服务使用总结
    消息中间件RabbitMQ(一)
  • 原文地址:https://www.cnblogs.com/arun-python/p/5403786.html
Copyright © 2011-2022 走看看