前言
正则表达式是一个字符串处理的标准依据。是使用单个字符串搜索、匹配一系列符合某个语法规则的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的。
一、正则表达式分类
1.1 字符类
| 元字符 | 功能 | 举例 |
| . |
匹配除了换行符之外的任意一个字符 |
#egrep a.b 文件名;表示匹配文件中a跟b之间有一个任意字符的行; |
| - |
在括号中使用,表示匹配的字符的范围 |
[0-9]表示的就是从数字0到数字9这个范围的数字; |
| [ ] |
匹配括号中的任意一个字符 |
#egrep [0-9] 文件名;表示匹配文件中含有0-9任意一个数字的行; |
| [[:xxx:]] |
grep工具预定义的一些命名字符 |
[[:digit:]]表示匹配一个数字[0-9],[[:alpha:]表示匹配一个英文字母[a-Z] |
1.2 数量限定符
| 字符 | 功能 | 举例 |
| ? |
紧跟在它前面的单元应匹配零次或者一次 ,是通配符的一种,等价于(0,1) |
|
| + |
紧跟在它前面的单元应匹配一次或者多次(至少一次),等价于(1,) |
|
| * |
紧跟在它前面的单元匹配零次或者多次,是通配符的一种 |
“a”:表示匹配所有内容,包括空行;“aa”:表示匹配至少含有一个a的行;“aaa”:表示匹配至少含有两个a的行; |
| {n} |
紧跟在它前面的单元应匹配n次 |
[0-9]{4}:表示匹配4位数字; |
| {n,} |
紧跟在它前面的单元应匹配至少n次 |
[0-9]{3,}:表示匹配至少匹配3位数字; |
| {,m} |
紧跟在它前面的单元应匹配最多m次 |
[0-9]{,2}:表示匹配数字最多2位 |
| {n,m} |
紧跟在它前面的单元应匹配至少n次,最多m次 |
[0-9]{1,3}:表示匹配数字至少1位,最多3位; |
1.3 位置限定符
| 元字符 | 功能 | 举例 |
| ^ |
匹配行首的位置;a.位于[ ]括号内,则匹配除括号中字符之外的任意字符,也就是对[ ]括号内的字符取反;b.位于[ ]括号外面,则表示以[ ]中的任意一个字符开头 |
^a:表示匹配文件中以a开头的行;[ ^0-9]:表示匹配任意一位非数字字符; |
| $ |
匹配行尾的位置 |
“a$”:表示匹配以a结尾的行; |
1.4 其他元字符
| 元字符 | 功能 | 举例 |
|
转义符,可以将普通字符转为特殊字符,将特殊字符转为普通字符,大多时候是用在将特殊字符的含义取消 |
".$“如果前面没有加转义符,则表示匹配以任意一个字符结尾的行,加上转义字符之后表示匹配以”."结尾的行,也就是把“.“的特殊含义取消了,变成普通的”.”符号; |
| () |
小括号可以将正则表达式的一部分括起来组成一个单元(也就是一个组),可以对整个单元使用数量限定符 |
([a-z]-[0-9]){1,3}:表示匹配”字母-数字“这样的格式的组合三次 |
| |
连接两个子表达式,表示或的关系 |
a|b表示a或者b; |
1.5 表示集合的字符类描述
| 字符 | 描述 |
| [:alnum:] |
表示所有字母数字的集合,[a-z A-Z 0-9] |
| [:alpha:] |
表示所有字母的集合,[a-z A-Z] |
| [:digit:] |
表示所有数字,[0-9] |
| [:lower:] |
表示所有的小写字母的集合,小写[a-z] |
| [:upper:] |
表示所有大写字母的集合,大写[A-Z] |
| [:space:] |
表示空格 |
| [:blank:] |
表示所有空格或者制表键(tab键)的集合 |
| [:punct:] |
表示所有的标点字符 |
| [:cntrl:] |
表示所有的控制字符 |
| [:print:] |
表示所有的非控制字符 |
| [:graph:] |
表示所有可视,可打印的字符(不包含空格) |
| [:xdigit:] |
表示所有十六进制的数字的集合,[0-9 a-f A-F] |
二、正则表达式优先级
正则表达式与算术表达式类似,遵循优先级顺序,相同优先级的从左到右进行运算,不同优先级的运算先高后低。下表从上到下说明了各种正则表达式运算符的优先级顺序,同行表示同级:
| 运算符 | 描述 |
|
转义符 |
(),(?:),(?=),[] |
圆括号和方括号 |
| *, +, ?, {n}, {n,}, {n,m} |
限定符 |
| ^, $, 任何元字符、任何字符 |
定位点和序列(即:位置和顺序) |
| |
“或"操作,字符具有高于替换运算符的优先级,所以”s|get“匹配"s"或"get”。若要匹配"set"或"get",需要使用括号创建子表达式,例:"(s|g)et" |