——正则表达式之特殊符号
在正则表达式中,许多标点符号具有特殊含义,比较难记,现归纳备个份:
这些符号有:^ $ . * + - ? = ! : | / ( ) [ ] { }
1.“[ ]”表示字符类: 即括号里是个字符集:如/[abc]/,表示和含有a,b,c任何一个字母的字符串都匹配。
注:特殊字符类:s表示空格符、制表符、Unicode空白符。S表示非Unicode空白符。(也可自定义Unicode字符类:如:
/[u4E00-u9FA5]/表示只匹配中文字符。)
w 任何单字字符,相当于[a-zA-X0-9_];W与w相反。
d 任何数字,相当于[0-9];D与w相反。
在字符类中使用表示退格符。[]则表示退格直接量。可以用来指定匹配位置,也可称为锚;如:
查找一个句子里的单词 java , 可以使用/java/;B与其相反。
2.“-"表示连字符,如[a-z];
3."."表示除换行符和其他Unicode行终止符之外的任意字符。
4."^"具有两重含义:开始标记和非,如:/^a/表示以a开始的字符,当在[]中时:/[^a]/表示非a的所有字符。
5."$"表示字符结尾。如:/^abc$/表示以c结束的字符。
6.” {}"表示重复上一项。如/d{2,4}/表示数字出现两次,最多出现4次。如/3{2,4}/匹配 33...;333....;3333.....;不匹配3和4个3相连以上的了。它的三种格式如下{n,m}表示至少3次,最多m次;{n,}至少n 次;{n}恰好n次。
7."?"表示{0,1}。
8."+"表示{1,}。
9."*"表示{0,}。
注:非贪婪的重复(如??,+?,*?,{1,5}?只匹配第一个。)
10."|"表示分割,即或的含义。如:/ab|cd|ef/匹配含有ab或cd或ef的字符串。
11."()"包含三重用途:一是定义子表达式。二是在完整的模式中定义子模式。三是子表达式的引用。
子模式的定义可以从目标串中抽取和括号中的子模式相匹配的部分。
子模式的表达式的引用是指:可识别子模式的编号,提取它。如/(abc)siss(stringw*)/;里面含有两个字表达式:可通过
1指(abc);2指(stringw*); 应用如:/['"][^'"]*['"]/不能取前后同样的引号,可以这样写:/[('")[^'"]*1]/,可起到约束作用。
注:若想()里的不想被记忆,可采用(?:.....),将不会对其编号。
还有(?=p),(?!p)如下:
如/(javascript)?(?=:)/ 表示匹配javascript:,但不包含:;它不匹配javascript,因为他有个条件就是后要接:;
(?!p)反前向声明,要求接下来的字符不与模式p匹配,与(?=p)相反。