grep:文本过滤工具(模式:pattern)
grep:基本正则表达式,-E,-F
egrep:扩展正则表达式,-G,-F
fgrep:不支持正则表达式,-E,-G
正则表达式(Regular Expression,REGEXP)
由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能;
分两类:
基本正则表达式:-G, --basic-regexp:PATTERN is a basic regular expression (BRE)
扩展正则表达式:-E, --extended-regexp:PATTERN is an extended regular expression (ERE)
正则表达式引擎:
采用不同算法,检查处理正则表达式的软件模块
PCRE(Perl Compatible Regular Expressions)
元字符:
(hello[[:space:]]+)+
元字符分类:字符匹配、匹配次数、位置锚定、分组
grep
Global search REgular expression and Print out the line.
作用:文本搜索工具,根据用户指定的"模式(过滤条件)"对目标文本逐行进行匹配检查;打印匹配到的行;
模式:由正则表达式的元字符及文本字符所编写出的过滤条件;
用法:
grep "UUID" /etc/fstab
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
grep root /etc/passwd
grep "$USER" /etc/passwd
grep `whoami` /etc/passwd
选项:
--color=auto:显示颜色;
-i, --ignore-case:忽略字符大小写;
-o, --only-matching:只显示匹配到的部分;
-n, --line-number:显示行号;
-v, --invert-match:反向显示,显示未匹配到的行;
-E, --extended-regexp:支持使用扩展的正则表达式;
-q, --quiet, --silent:静默模式,即不输出任何信息;
-w, --word-regexp:整行匹配整个单词;
-c, --count:统计匹配到的行数; print a count of matching lines;
-B, --before-context=NUM:print NUM lines of leading context 后#行
-A, --after-context=NUM:print NUM lines of trailing context 前#行
-C, --context=NUM:print NUM lines of output context 前后各#行
基本正则表达式的元字符
1、字符匹配:
.:匹配任意单个字符;
[]:匹配指定范围内的任意单个字符;
[^]:匹配指定范围外的任意单个字符;
2、匹配次数:用在要指定其出现的次数的字符后面,用于限制其前面字符出现的次数;
*:匹配其前面的字符任意次;0,1,多次;
例如:grep "x*y"
abxy
aby
xxxxy
yab
.*:匹配任意长度的任意字符;
?:匹配其前面的字符0次或1次;
+:匹配其前面的字符1次或多次;即其前面的字符要出现至少1次;
{m}:匹配其前面字符m次;
{m,n}:匹配其前面的字符至少m次,至多n次;
{0,n}:至多n次
{m,}:至少m次
3、位置锚定:
^:行首锚定;用于模式的最左侧;匹配开头的字符;
# grep '^root' /etc/passwd 匹配以root开头的行
$:行尾锚定;用于模式的最右侧;匹配结尾的字符;
# grep 'r.*h$' /etc/passwd 匹配以r开头以h结尾的行
^$:空行
^[[:space:]]*$:空行或包含空白字符的行;
单词:非特殊字符组成的连续字符(字符串)都称为单词;
<或:词首锚定,用于单词模式的左侧;界定单词的左边界;
<hello 用于匹配以hello开头的单词
>或:词尾锚定,用于单词模式的右侧;
hello> 用于匹配以hello结尾的单词
<PATTERN>:匹配完整单词;
<hello> 可精确匹配单词hello,而不是helloworld
4、分组及引用
():将一个或多个字符捆绑在一起,当作一个整体进行处理;括号不能交叉,但可以嵌套;
(xy)*ab
注意:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部变量中,这些变量为:
1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
3:
...
# vim lovers.txt
he loves his lover.
he likes his lover.
she likes her liker.
she loves her liker.
# grep "(l..e).*1" lovers.txt
# grep "^(r..t).*1" /etc/passwd
5、后向引用:1表示后向引用,引用前面第一个括号所匹配到的内容;
d:匹配一个数字;等价于[0-9];
w:匹配字母、数字和下划线;
W:匹配非字母、数字和下划线;
:换行符;
:回车;
:制表符;tab
f:换页符;
s:空白字符;
S:非空白字符;
egrep
支持扩展的正则表达式实现类似于grep文本过滤功能;
egrep [OPTIONS] PATTERN [FILE...]
选项:与grep相同
特别选项:-G,支持基本正则表达式
扩展正则表达式的元字符
字符匹配:
.:任意单个字符
[]:指定范围内的任意单个字符
[^]:指定范围外的任意单个字符
次数匹配:
*:任意次,0,1或多次;
?:0次或1次,其前的字符是可有可无的;
+:其前的字符至少1次;
{m}:其前的字符m次;
{m,n}:至少m次,至多n次;
{0,n}
{m,}
位置锚定
^:行首锚定;
$:行尾锚定;
<,:词首锚定;
>,:词尾锚定;
# grep "<abc" f1 过滤abc开始的单词的行
# grep " abc>" f1 过滤abc结尾的单词的行
# grep ‘c.{2}t’ f1 c后面任意两个字符加t
分组及引用
():分组,括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中;
后向引用:1,2,...
或关系:
a|b:a或者b;
C|cat:C或cat;
(c|C)at:cat或Cat;
1、显示/etc/passwd文件中不以/bin/bash结尾的行;
# grep -v "/bin/bash$" /etc/passwd
2、找出/etc/passwd文件中的两位数或三位数;
# grep "<[0-9]{2,3}>" /etc/passwd
# egrep "<[0-9]{2,3}>" /etc/passwd
3、找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中,以至少一个空白字符开头,且后面非空白字符的行;
# grep "^[[:space]]+[^[:space:]]" /etc/grub2.cfg
# egrep "^[[:space]]+[^[:space:]]" /etc/grub2.cfg
4、找出"netstat -tan"命令的结果中以'LISTEN'后跟0,1或多个空白字符结尾的行;
# netstat -tan | grep "LISTEN[[:space:]]*$"
5、找出/proc/meminfo文件中,所有以大写或小写s开头的行;
# grep "^[sS]" /proc/meminfo
# grep -i "^s" /proc/meminfo
# egrep "^(s|S)" /proc/meminfo
6、显示当前系统上root、centos或user1用户的相关信息;
# egrep "^(root|centos|user1)>" /etc/passwd
7、找出/etc/rc.d/functions文件中的某个单词后面跟一个小括号的行;
# egrep "[[:alnum:]]+()" /etc/rc.d/init.d/functions
8、使用echo命令输出一个绝对路径,使用egrep取出其基名;
# echo /etc/sysconfig | egrep -o "[^/]+$"
9、找出ifconfig命令结果中的1-255之间的数值;
# ifconfig | egrep -o "[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]"
10、找出ifconfig命令结果中的IP地址;
# ifconfig | grep "inet>" | tr -s " " | cut -d" " -f3
11、添加用户bash,testbash,basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
# useradd bash
# useradd testbash
# useradd basher
# useradd -s /bin/nologin nologin
# egrep "^([^:]+>).*1$" /etc/passwd
或者 # egrep "(<..*>).*1$" /etc/passwd
12、显示/etc/passwd文件中ID号最大的用户的用户名
# sort -t: -k3 -n /etc/passwd | tail -1 | cut -d: -f1
13、显示用户rpc默认的shell程序
# grep "<rpc>" /etc/passwd | cut -d: -f7
14、显示当前系统root、mage或wang用户的UID和默认shell;
# useradd mage
# useradd wang
# egrep "^(root|mage|wang)>" /etc/passwd | cut -d: -f1,3,7
15、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行;
# egrep -o "^[[:alpha:]]*_*.*()" /etc/rc.d/init.d/functions
16、使用egrep取出/etc/rc.d/init.d/functions中其基名;
# echo /etc/rc.d/init.d/functions | egrep -o "[^/]+$"
17、使用egrep取出上面路径的目录名;
# echo /etc/rc.d/init.d/functions | egrep -o "^.*/" | egrep -o "^.*[^/]"
18、统计以root身份登录的每个远程主机的IP地址的登录次数;
# last | tr -s " " | grep "^root>" | cut -d" " -f3
19、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255;
[0-9]
[1-9][0-9]
1[0-9]{2}
2[0-4][0-9]
25[0-5]
20、显示ifconfig命令结果所有IPv4地址;
# ifconfig | egrep "(<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])>.){3}<([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])>"
# ifconfig | egrep "([0-9]{1,3}.){3}[0-9]{1,3}"
fgrep:不支持正则表达式元字符;
当无需用到元字符去编写模式时,使用fgrep性能更好;