正则表达式总结之查找

zoukankan html css js c++ java

正则表达式总结之查找
【0】、写在前面

以下内容总结于shell脚本学习指南

【1】我们说查找文本要用到三种文本匹配程序：

1.1）grep 使用的是基本正则表达式（basic regular expression，BRE）

1.2）扩展式grep 使用 egrep（extended regular express， ERE）；用grep -E 取代 egrep

1.3）快速grep （fast grep），主要用于匹配固定字符串而非正则表达式；用grep -F取代fgrep

【2】grep的用法：匹配一个或者多个模式的文本行

grep [options …] pattern-spec [files…] （以下grep 选项没有列完全，但列出重要的）

2.1）-E 取代egrep

2.2）-F 取代fgrep

2.3）-e par-list 匹配多个模式，自己查

2.4）-i 忽略大小写

2.5）-v 显示不匹配的行

2.6） -q 匹配成功则离开，不写入到标准输出

2.7） -l 列出匹配模式的文件名称，而不是打印匹配的行

【3】基本正则表达式

3.1）匹配单个字符

可采用以下几种方式做到：

3.1.1）单个字符

正则表达式a匹配a，而不是匹配A，word match word not WoRD；

3.1.2）转义的meta字符

meta字符（元字符），如*，等可以用转义它

3.1.3）.号 match 任一字符not任意字符 a.c match abc,aac not ac

3.1.4）方括号表达式

c[aeiou]t match cat, cet , cit, cot cut
complementary: ^放在[] 里面的字首表示取反; 即是匹配不在[] 里面的字符；

3.2）POSIX 的排序符号等价字符集以及字符集

3.2.1）排序

定义：指给予成组的项目排列顺序的操作；
形式：用[.与.] 括起来
如 [.ch.] 匹配成对的ch 而不是单个c or h ；又如 [ab[.ch.]de] match a or b or d or e or 成对的ch

3.2.2）等价字符集

定义：用来让不同字符在匹配时视为相同字符；
形式：用 [= 与 =] 括起来
如：[=e=] matching 各种e （如法语中的e字母是和英语中的e字母不一样的，这和具体的locale有关）

3.2.3）字符集

定义：表示字符的类别；如数组，大写字母，小写字母，标点符号，空白；
形式：用[:与:] 括起来；
来张鸟哥的图：

3.3）后向引用

定义：指的是匹配于正则表达式匹配的先前部分；分为两步：first , 将子表达式包围在( 与 ) 里面；second, 在同一模式后使用digit， digit指的是介于1~9的数字，指的是匹配于第n个先前方括号内子表达式匹配成功的字符。
如：

(ab)(cd)[def]*21 matching abcdcdab,abcdeeecdab, abcdddeeffcdab (why).*1 matching 一行里重现两个why ([""']).*1 matching 以单引号或是双引号括起来的字，如 ‘foo’ or "bar"

3.4）单字符匹配多字符

3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）

3.4.2）区间表达式

形式：该表达式将一个或者两个数字放在 { 和 } 之间， there are 3 forms:
{n} : 前置正则表达式所得结果重现n次；
{n,} : 前置正则表达式所得结果重现至少n次；
{n,m} : 前置正则表达式所得结果重现n~m次；

【Attention】

n和m介于0到RE_DUP_MAX之间；getconf RE_DUP_MAX 获取该值大小

3.4）文本匹配锚点

3.4.1）脱字符号^ :限定匹配字符串的起始处

如^ABC 用于匹配行起始处为ABC的行；

3.4.２）货币符号＄ :限定匹配字符串的结束处

$ABC 用于匹配以ABC结束的行；
^$也可以同时使用，用于表示空行

3.5）BRE运算符的优先级

（由高到低）

first: [..] [==] [::] 用于字符排序的方括号符号 second: metacharacter 转义的meta符号 third: [] 方括号表达式 4th: () digit 子表达式与向后引用 5th: * {} 前置单个字符重现的正则表达式 6th: 无符号 (no symbol) 连续 7th: ^$ 锚点

【4】扩展正则表达式

匹配单个字符同BRE；
后向用于不存在；

4.1）匹配单个表达式或多个正则表达式

与BRE不同之处在于：
区间表达式不需要反斜杠字符：如a{5} or q{10,42} 是不是爽到爆；
ERE有两个meta字符：
？ matching 0 or 1 前置正则表达式
+ matching 1 or more 前置正则表达式

4.2) 交替

问题：方括号表达式易于表示匹配这个字符那个字符，但是不能指定匹配这个序列那个序列，交给管道字符(|）来处理吧
如： read |write matching read or write

【Attention】

| 运算法是在ERE中优先级别最低的；

4.3 ）分组

圆方括号提供了分组功能；
如：（why）+ mathcing one or more 连续重复的why
而且分组可以和交替相结合；
如： read|write+ 指的是匹配正好一个read或是一个write后面跟了无数个e字符如 writee, writeeeee

【key】

当你将交替操作结合^, $ 锚点字符使用时，分组就非常好用了。
^abcd|efgh$ matching 字符串的起始处是否有abcd或者结尾处室友有efgh ， nice！

4.4）ERE运算符的优先级

first: [...] [= =] [: :] 方括号符号 second: metacharacter 转义的meta字符 third: [] 方括号表达式 4th: () 分组 5th: * + ? {} 重复前置的表达式 6th: 无符号连续字符 7th: ^$ 锚点 8th: | 交替

【extension】

说 <> 可以匹配一个单词; 如：<chop 匹配于 use chopsticks not eat a lambchop; chop> matching eat a lambchop; <chop> 指匹配 chop

【complementary】

unix程序及其正则表达式类型
查看全文

相关阅读:
Solo 博客系统 1.7.0 发布
 <Android 基础（二十九）> Fragment (2) ~ DialogFragment
2016最新Java学习计划
 <Android 基础（二十八）> Fragment (1)
2016最新前端学习计划
 Android 学习路线图
 C/C++学习路线图
 小学数学题，你会吗？
劣质代码评析——《写给大家看的C语言书(第2版)》附录B之21点程序（八）
劣质代码评析——《写给大家看的C语言书(第2版)》》附录B之21点程序（七）

原文地址：https://www.cnblogs.com/pacoson/p/4893181.html

正则表达式总结之查找

【0】、写在前面

以下内容总结于shell脚本学习指南

【1】我们说查找文本要用到三种文本匹配程序 ：

1.1）grep 使用的是基本正则表达式（basic regular expression，BRE）

1.2）扩展式grep 使用 egrep（extended regular express， ERE）；用grep -E 取代 egrep

1.3）快速grep （fast grep），主要用于匹配固定字符串而非正则表达式；用grep -F取代fgrep

【2】grep的用法 ： 匹配一个或者多个模式的文本行

2.1）-E 取代egrep

2.2）-F 取代fgrep

2.3）-e par-list 匹配多个模式，自己查

2.4）-i 忽略大小写

2.5）-v 显示不匹配的行

2.6） -q 匹配成功则离开，不写入到标准输出

2.7） -l 列出匹配模式的文件名称，而不是打印匹配的行

【3】基本正则表达式

3.1）匹配单个字符

3.1.1）单个字符

3.1.2） 转义的meta字符

3.1.3）.号 match 任一字符not任意字符 a.c match abc,aac not ac

3.1.4） 方括号表达式

3.2）POSIX 的排序符号 等价字符集以及字符集

3.2.1） 排序

3.2.2） 等价字符集

3.2.3）字符集

3.3）后向引用

3.4） 单字符匹配多字符

3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）

3.4.2）区间表达式

【Attention】

3.4） 文本匹配锚点

3.4.1）脱字符号^ :限定匹配字符串的起始处

3.4.２）货币符号＄ :限定匹配字符串的结束处

3.5）BRE运算符的优先级

【4】扩展正则表达式

4.1）匹配单个表达式或多个正则表达式

4.2) 交替

【Attention】

4.3 ） 分组

【key】

4.4）ERE运算符 的优先级

【extension】

【complementary】

【1】我们说查找文本要用到三种文本匹配程序：

【2】grep的用法：匹配一个或者多个模式的文本行

3.1.2）转义的meta字符

3.1.4）方括号表达式

3.2）POSIX 的排序符号等价字符集以及字符集

3.2.1）排序

3.2.2）等价字符集

3.4）单字符匹配多字符

**3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）**

3.4）文本匹配锚点

4.3 ）分组

4.4）ERE运算符的优先级