文本处理工具:
linux上文本处理三剑客
grep,egrep,fgrep:文本过滤工具(模式:pattern)工具
grep:默认支持的是基本正则表达式;-E支持扩展正则表达式,-F不支持正则表达式
egrep:默认支持的是扩展正则表达式;-G支持基本正则表达式,-F不支持正则表达式
fgrep:默认不支持正则表达式;-G支持基本正则表达式,-E支持扩展正则表达式
sed:stream editor,流编辑器,文本编辑工具
awk:linux上的实现为gawk,文本报告生成器(格式化文本)
正则表达式:Regual Expression,REGEXP
由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
元字符:(hello[[:space:]]+)+
grep:Global search REgular expression and Print out the line
作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查;打印匹配到的行
模式:由正则表达式的元字符及文本字符所编写出的过滤条件
正则表达式引擎:
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
OPTIONS:
--color=auto;对匹配到的文本着色后高亮显示
-i:ignorecase,忽略字符的大小写
-o:仅显示匹配到的字符串本身
-v:--invert-match,表示不能够被模式匹配到的行
-E:支持使用扩展的正则表达式元字符
-q:--quiet,--silent,静默模式,不输出任何信息
-A #:after,同时显示能被匹配到的行的后#行
-B #:before,同时显示能被匹配到的行的前#行
-C #:context,同时显示能被匹配到的行的前后各#行
基本正则表达式的元字符:
字符匹配:
.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:dight:],[:lower:],[:upper:],[:alpha:],[:alnum:],[:punct:],[:space:]
匹配次数:
用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式
*:匹配其前面的字符任意次:0,1,多次
例如:grep "x*y"
abxy
aby
xxxy
yab
.*:匹配任意长度的任意字符
?:匹配其前面的字符0次或1次,即其前面的字符是可有可无的
+:匹配其前面的字符1次或多次,即其前面的字符要出现至少一次
{m}:匹配其前面的字符m次,精确匹配
{m,n}:匹配其前面的字符至少m次,至多n次
{0,n}:至多n次
{m,}:至少m次
位置锚定:
^:行首锚定;用于模式的最左侧
$:行尾锚定;用于模式的最右侧
^PATTERN$:用于PATTERN来匹配整行
^$:空白行
^[[:space:]]*$:空白行或包含空白字符的行
单词:非特殊字符组成的连续字符(字符串)都称为单词
<或:词首锚定,用于单词模式的左侧
>或:词尾锚定,用于单词模式的右侧
<PATTERN>:匹配完整单词
分组及引用:
():将一个或多个字符捆绑在一起,当作一个整体进行处理
xy*ab:表示y可以出现任意次
(xy)*ab:因为bash中括号有特殊意义,所以不能直接用括号,可以用来把()进行转译
Note:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:
1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符
2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符
3:
...
建立一个文本:
He loves his lover.
He likes his lover.
She likes her liker.
She love her liker.
~]# grep "(l..e).*1" lovers.txt
后向引用:引用前面的分组括号中的模式所匹配到的字符