正则表达式第五篇：C# 正则表达式

zoukankan html css js c++ java

正则表达式第五篇：C# 正则表达式
本文整理C#正则表达式的元字符，正则表达式是由字符构成的表达式，每个字符代表一个规则，表达式中的字符分为两种类型：普通字符和元字符。普通字符是指字面含义不变的字符，按照完全匹配的方式匹配文本，而元字符具有特殊的含义，代表一类字符。

把文本看作是字符流，每个字符放在一个位置上，例如，正则表达式 “Roomddd”，前面四个字符Room是普通字符，后面的字符是转义字符，和后面的字符d组成一个元字符d，表示该位置上有任意一个数字。

用正则表达式的语言来描述是：正则表达式 “Roomddd”共捕获7个字符，表示“以Room开头、以三个数字结尾”的一类字符串，我们把这一类字符串称作一个模式（Pattern），也称作是一个正则。

一，转义字符

转义字符是，把普通字符转义为具有特殊含义的元字符，常用的转义字符有：
- ：水平制表符
- v：垂直制表符
- ：回车
- ：换行
- \：表示字符，也就说，把转义字符转义为普通的字符
- "：表示字符 "，在C#中，双引号用于定义字符串，字符串包含的双引号用 " 来表示
二，字符类

在进行正则匹配时，把输入文本看作是有顺序的字符流，字符类元字符匹配的对象是字符，并会捕获字符。所谓捕获字符是指，一个元字符捕获的字符，不会被其他元字符匹配，后续的元字符只能从剩下的文本中重新匹配。

常用的字符类元字符：
- [ char_group]：匹配字符组中的任意一个字符
- [^char_group]：匹配除字符组之外的任意一个字符
- [first-last]：匹配从first到last的字符范围中的任意一个字符，字符范围包括first和last。
- . ：通配符，匹配除之外的任意一个字符
- w：匹配任意一个单词（word）字符，单词字符通常是指A-Z、a-z和0-9
- W：匹配任意一个非单词字符，是指除A-Z、a-z和0-9之外的字符
- s：匹配任意一个空白字符
- S：匹配任意一个非空白字符
- d：匹配任意一个数字字符
- D：匹配任意一个非数字字符
注意，转义字符也属于字符类元字符，在进行正则匹配时，也会捕获字符。

三，定位符

定位符匹配（或捕获）的对象是位置，它根据字符的位置来判断模式匹配是否成功，定位符不会捕获字符，是零宽的（宽度为0），常用的定位符有：
- ^：默认情况下，匹配字符串的开始位置；在多行模式下，匹配每行的开始位置；
- $：默认情况下，匹配字符串的结束位置，或字符串结尾的之前的位置；在多行模式下，匹配每行结束之前的位置，或者每行结尾的之前的位置。
- A：匹配字符串的开始位置；
- ：匹配字符串的结束位置，或字符串结尾的之前的位置；
- z：匹配字符串的结束位置；
- G：匹配上一个匹配结束的位置；
- ：匹配一个单词的开始或结束的位置；
- B：匹配一个单词的中间位置；
四，量词、贪婪和懒惰

量词是指限定前面的一个正则出现的次数，量词分为两种模式：贪婪模式和懒惰模式，贪婪模式是指匹配尽可能多的字符，而懒惰模式是指匹配尽可能少的字符。默认情况下，量词处于贪婪模式，在量词的后面加上?来启用懒惰模式。
- *：出现0次或多次
- +：出现1次或多次
- ?：出现0次或1次
- {n}：出现n次
- {n,}：出现至少n次
- {n,m}：出现n到m次
注意，出现多次是指前面的元字符出现多次，例如，d{2} 等价于 dd，只是出现两个数字，并不要求两个数字是相同的。要表示相同的两个数字，必须使用分组来实现。

五，分组和捕获字符

() 括号不仅确定表达式的范围，还创建分组，()内的表达式就是一个分组，引用分组表示两个分组匹配的文本是完全相同的。定义一个分组的基本语法：

(pattern)

该类型的分组会捕获字符，所谓捕获字符是指：一个元字符捕获的字符，不会被其他元字符匹配，后续的元字符只能从剩下的文本中重新匹配。

1，分组编号和命名

默认情况下，每个分组自动分配一个组号，规则是：从左向右，按分组左括号的出现顺序进行编号，第一个分组的组号为1，第二个为2，以此类推。也可以为分组指定名称，该分组称作命名分组，命名分组也会被自动编号，编号从1开始，逐个加1，为分组指定名称的语法是：

(?< name > pattern)

通常来说，分组分为命名分组和编号分组，引用分组的方式有：
- 通过分组名称来引用分组：k<name>
- 通过分组编号来引用分组： umber
注意，分组只能后向引用，也就是说，从正则表达式文本的左边开始，分组必须先定义，然后才能在定义之后面引用。

在正则表达式里引用分组的语法为“ umber”，比如“1”代表与分组1 匹配的子串，“2”代表与分组2 匹配的字串，以此类推。

例如，对于 "<(.*?)>.*?</1>" 可以匹配 <h2>valid</h2>，在引用分组时，分组对应的文本是完全相同的。

2，分组构造器

分组构造方法如下：
- (pattern)：捕获匹配的子表达式，并为分组分配一个组号
- (?< name > pattern)：把匹配的子表达式捕获到命名的分组中
- (?:pattern)：非捕获的分组，并未分组分配一个组号
- (?> pattern)：贪婪分组
3，贪婪分组

贪婪分组也称作非回溯分组，该分组禁用了回溯，正则表达式引擎将尽可能多地匹配输入文本中的字符。如果无法进行进一步的匹配，则不会回溯尝试进行其他模式匹配。

(?> pattern )

4，二选一

| 的意思是或，匹配两者中的任意一个，注意，｜把左右两边的表达式分为两部分。
pattern1 ｜ pattern2
六，零宽断言

零宽是指宽度为0，匹配的是位置，所以匹配的子串不会出现在匹配结果中，而断言是指判断的结果，只有断言为真，才算匹配成功。

对于定位符，可以匹配一句话的开始、结束（^ $）或者匹配一个单词的开始、结束（），这些元字符只匹配一个位置，指定这个位置满足一定的条件，而不是匹配某些字符，因此，它们被成为 零宽断言。所谓零宽，指的是它们不与任何字符相匹配，而匹配一个位置；所谓断言，指的是一个判断，正则表达式中只有当断言为真时才会继续进行匹配。零宽断言可以精确的匹配一个位置，而不仅仅是简单的指定句子或者单词。

正则表达式把文本看作从左向右的字符流，向右叫做后向（Look behind），向左叫做前向（Look ahead）。对于正则表达式，只有当匹配到指定的模式（Pattern）时，断言为True，叫做肯定式，把不匹配模式为True，叫做否定式。

按照匹配的方向和匹配的定性，把零宽断言分为四种类型：
- (?= pattern)：前向、肯定断言
- (?! pattern)：前向、否定断言
- (?<= pattern)：后向、肯定断言
- (?<! pattern)：后向、否定断言
1，前向肯定断言

前向肯定断言定义一个模式必须存在于文本的末尾（或右侧），但是该模式匹配的子串不会出现在匹配的结果中，前向断言通常出现在正则表达式的右侧，表示文本的右侧必须满足特定的模式：

(?= subexpression )

使用前向肯定断言可以定一个模糊匹配，后缀必须包含特定的字符：
w+(?=sis)
对正则表达式进行分析：
- ：表示单词的边界
- w+：表示单词至少出现一次
- (?=sis)：前向肯定断言，s 表示一个空白字符， is 是普通字符，完全匹配，是单词的边界。
从分析中，可以得出，匹配该正则表达式的文本中必须包含 is 单词，is是一个单独的单词，不是某一个单词的一个部分。举个例子

Sunday is a weekend day 匹配该正则，匹配的值是Sunday，而The island has beautiful birds 不匹配该正则。

2，后向肯定断言

后向肯定断言定义一个模式必须存在于文本的开始（或左侧），但是该模式匹配的子串不会出现在匹配的结果中，后向断言通常出现在正则表达式的左侧，表示文本的左侧必须满足特定的模式：
(?<= subexpression )
使用后向肯定断言可以定一个模糊匹配，前缀必须包含特定的字符：
(?<=20)d{2}
对正则表达式进行分析：
- (?<=20)：后向断言，表示单词的开始，20是普通字符
- d{2}：表示两个数字，数字不要求相同
- ：单词的边界
该正则表达式匹配的文本具备的模式是：文本以20开头、以两个数字结尾。

七，用正则从格式化的文本中扣值

有如下的JSON格式的文本，从文本中扣出字段（CustomerId、CustomerName、CustomerIdSource和CustomerType）的值：
{"CustomerDetails":"[{"CustomerId":"57512f19","CustomerName":"cust xyz","CustomerIdSource":"AadTenantId","CustomerType":"Enterprise"}]"}
注意，该文本转换为C#中的字符时，需要对双引号和转义字符进行转义。由于这四个字段提取规则相同，可以写一个通用的模式来提取：
public static string GetNestedItem(string txt, string key) { string pat = string.Format("(?<=\\"{0}\\":\\").*?(?=\\")", key); return Regex.Match(txt, pat, RegexOptions.IgnoreCase).Value; }
正则表达式得解析：
- (?<=\\"{0}\\":\\")：后向断言，用于匹配字段名、双引号和冒号
- .*?：懒惰模式，匹配尽可能少的文本
- (?=\\")：前向断言，用于匹配字段值得双引号
注意：对于文本字段是"abc"，使用C#字符串表示是\"abc\"，这是因为原始字符串 "是两个字符，因此需要分别表示。

使用正则表达式表示是 \\"abc\\"，这是因为在正则表达式中，是一个转义字符，\ 表示字符。

参考文档：

C#中正则表达式的使用

C# 正则表达式菜鸟教程

Regular Expression Language - Quick Reference
查看全文

相关阅读:
洛谷 P1226 【模板】快速幂||取余运算题解
 洛谷 P2678 跳石头题解
 洛谷 P2615 神奇的幻方题解
 洛谷 P1083 借教室题解
 洛谷 P1076 寻宝题解
 洛谷 UVA10298 Power Strings 题解
 洛谷 P3375 【模板】KMP字符串匹配题解
 Kafka Shell基本命令
 Mybatis与Hibernate的详细对比
 MyBatis简介

原文地址：https://www.cnblogs.com/ljhdo/p/11912171.html

正则表达式 第五篇：C# 正则表达式

一，转义字符

二，字符类

三，定位符

四，量词、贪婪和懒惰

五，分组和捕获字符

六，零宽断言

七，用正则从格式化的文本中扣值

正则表达式第五篇：C# 正则表达式