Regex 元字符及其描述

zoukankan html css js c++ java

Regex 元字符及其描述

将下一个字符标记符、或一个向后引用、或一个八进制转义符。
例如："\n" 匹配 " " ；" " 匹配换行符；"\" 匹配 "" ；"(" 匹配 "(" 。

^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性， ^ 也匹配 " " or " " 之后的位置。

$ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的 Multiline 属性， ^ 也匹配 " " or " " 之前的位置。

* 匹配前面的子表达式任意次。
例如："zo*" 能匹配 "z" or "zo" or "zoo" ， "o" 可以出现任意次。

+ 匹配前面的子表达式一次或多次。"+" 等价于 "{1,}"。
例如："zo+" 能匹配 "zo" or "zoo" ， "o" 出现一次或多次。

? 匹配前面的子表达式出现零次或一次。 "?" 等价于 "{0,1}"。
例如："do(es)?" 能匹配 "do" or "does"。

{n} n 是一个非负整数。匹配确定的 n 次。
例如："o{2}" 能匹配 "food" 中的 "oo" ，不能匹配 "bod" 中的 "o" 。

{n,} n 是一个非负整数。至少匹配 n 次。
例如："o{2}" 能匹配 "food" or "foood" or "fooood" 中的所有 "o" ，不能匹配 "bod" 中的 "o" 。

{n,m} n 和 m 都是一个非负整数。最少匹配 n 次且最多匹配 m 次。
例如："o{1,3}" 能匹配 "fooooood" 中的前三个 "o" 。

? 当 "?" 紧跟在任何一个其他限制符（比如："*","+","?","{n}","{n,}","{n,m}"）后面时，匹配模式是懒惰模式。懒惰模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
例如：对于字符串 "oooo" ，"o+?" 将匹配每个 "o" 即 4 次匹配，而 "o+" 则只匹配 1 次即 "oooo" 。

. 匹配除 " " 之外的任何单个字符。如果要匹配包含 " " 在内的任何字符，请使用 "sS" 。

(pattern) 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到。

(?:pattern) 非获取匹配，匹配 pattern 但不获取匹配结果，不进行存储供以后使用。这在使用 "|" 来组合一个模式的各个部分时，很有用。
例如："industr(?:y|ies)" 就是一个比 "industry|industries" 更简略的表达式。

(?=pattern) 非获取匹配，正向肯定预查，在任何匹配 pattern 的字符串开始处匹配查询字符串，该匹配不需要获取供以后使用。预查不消耗字符，也就是说，在一个匹配发生后，在最后一个匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
例如："Windows(?=95|98|NT|2000)" 能匹配 "Windows95" or "Windows98" or "WindowsNT" or "Windows2000" 中的 "Windows" ，但不能匹配 "WindowsXP" 中的 "Windows" 。

(?!pattern) 非获取匹配，正向否定预查，在任何不匹配 pattern 的字符串开始处匹配查询字符串，改匹配不需要获取供以后使用。
例如："Windows(?!95|98|NT|2000)" 能匹配 "WindowsXP" 中的 "Windows" ，但不能匹配 "Windows95" or "Windows98" or "WindowsNT" or "Windows2000" 中的 "Windows" 。

(?<=pattern) 非获取匹配，反向肯定预查，与正向肯定预查类似，只是方向相反。
例如："(?<=95|98|NT|2000)Windows" 能匹配 "95Windows" or "98Windows" or "NTWindows" or "2000Windows" 中的 "Windows" ，但不能匹配 "XPWindows" 中的 "Windows" 。

(?<!pattern) 非获取匹配，反向否定查询，与正向否定查询类似，只是方向相反。
例如："(?<!95|98|NT|2000)Windows" 能匹配 "XPWindows" 中的 "Windows" ，但不能匹配 "95Windows" or "98Windows" or "NTWindows" or "2000Windows" 中的 "Windows" 。这个地方不正确，有问题，此处用 "|" 则任意一项都不能超过 2 位，如 "(?<!95|98|NT|20)Windows" 正确，"(?<!95|980|NT|20)Windows" 报错，若单独使用则无限制，如 "(?<!2000)Windows" 正确。

x|y 匹配 x or y 。
例如："z|food" ，能匹配 "z" or "food"。"[z|f]ood" 能匹配 "zood" or "food" 。

[xyz] 字符集合。匹配所包含的任意一个字符。
例如："[abc]" 能匹配 "plain" 中的 "a" 。

[^xyz] 负值字符集合。匹配未包含的任意字符。
例如："[^abc]" 能匹配 "plain" 中的 "p" or "l" or "i" or "n" 。

[a-z] 字符范围。匹配指定范围内的任意字符。
例如："[a-z]" 能匹配 "a" 到 "z" 范围内的任意小写字母字符。
注意："-" 只有在字符组内部，并且出现在两个字符之间时，才能表示字符的范围，否则，只能表示 "-" 本身。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。
例如："[^a-z]" 能匹配任何不在 "a" 到 "z" 范围内的任意字符。

匹配一个单词边界，也就是指，单词和空格间的位置（即正则表达式的“匹配”有两种概念，一种是匹配字符，一种是匹配位置，这里的 "" 就是匹配位置的）。
例如："er" 能匹配 "never" 中的 "er" ，但不能匹配 "verb" 中的 "er" 。

B 匹配非单词边界。
例如："erB" 能匹配 "verb" 中的 "er" ，但不能匹配 "never" 中的 "er" 。

cx 匹配由 x 指明的控制字符。例如，cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z or a-z 之一。否则，将 c 视为一个原义的 "c" 字符。

d 匹配一个数字字符。等价于 "[0-9]" 。

D 匹配一个非数字字符。等价于 "[^0-9]" 。

f 匹配一个换页符。

匹配一个换行符。

匹配一个回车符。

s 匹配任何不可见字符，包括空格、制表符、换页符等等。等价于 "[f v]" 。

S 匹配任何可见字符。等价于 "[^f v]" 。

匹配一个制表符。

v 匹配一个垂直制表符。

w 匹配包含下划线的任何单词字符。类似但不等价于 "[a-zA-Z0-9_]" ，这里的 "单词" 字符使用 Unicode 字符集。

W 匹配任何非单词字符。等价于 "[^a-zA-Z0-9_]" 。

xn 匹配 n ，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。增则表达式中可以使用 ASCII 编码。
例如： "x41" 匹配 "A" 。 "x041" 等价于 "x04&1" 。

um 匹配 num ，其中 num 是一个正整数。对所获取的匹配的引用。
例如："(.)1" 匹配两个连续的相同字符。

标识一个八进制转义值或一个向后引用。如果 " " 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字(0-7)，则 n 为一个八进制转义值。

m 标识一个八进制转义值或一个向后引用。如果 " m" 之前至少有 nm 个获取的子表达式，则 nm 为向后引用。如果 nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字(0-7)，则 " m" 将匹配八进制转义值 nm 。

ml 如果 n 为八进制数字(0-7)，且 m 和 l 均为八进制数字(0-7)，则匹配八进制转义值 nml 。

un 匹配 n ，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。
例如："u00A9" 匹配版权符号 "©" 。

<> 匹配词(word)的开始(<)和结束(>)。
例如："<the>" 能匹配 "for the wise" 中的 "the" ，但不能匹配 "otherwise" 中的 "the"。
注意：不是所有语言都支持。

() 将 ( 和 ) 之间的表达式定义为组(group)，并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式最多可以保存9个），它们可以用 1 到 9 的符号来引用。

{i}{i,j} 匹配指定数目的字符，这些字符是在它之前的表达式定义的。
例如： "A[0-9]{3}" 能匹配字符 "A 后面跟着正好 3 个数字，例如 "A123" or "A343" 等，当是不匹配 "A1234" 。"[0-9]{4,6}" 匹配 4 个 or 5 个 or 6 个数字。

查看全文

相关阅读:
每周进度条07
软件需求模式阅读笔记06
每周进度条06
软件需求模式阅读笔记05
Django之ModelForm组件
 Django的性能优化
 分页，缓存，序列化，信号
 Django补充——中间件、请求的生命周期等
 Git基础介绍和使用
 Django基础之三

原文地址：https://www.cnblogs.com/wangjp/p/6015036.html

Regex 元字符 及其 描述

Regex 元字符及其描述