grep零宽断言
定义:匹配宽度为零,满足一定的条件/断言
零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像 ^ $ < > 这样的锚定作用,用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。 断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。
分为四种:
先行断言 (?=exp)
表示匹配表达式前面的位置
注意:先行断言的执行步骤是这样的先从要匹配的字符串中的最右端找到第一个 ing (也就是先行断言中的表达式)然后 再匹配其前面的表达式,若无法匹配则继续查找第二个 ing 再匹配第二个 ing 前面的字符串,若能匹配则匹配,符合正则的贪婪性。
[root@~]# cat a01 cooking singing [root@~]# grep -Po '[a-z]*(?=ing)' a01 cook sing [root@~]# grep -Po '.*(?=ing)' a01 cooking sing
后发断言 (?<=exp)
表示匹配表达式后面的位置
[root@~]# cat a01 cooking singing [root@~]# grep -Po '(?<=ing).*' a01 singing
负向零宽断言 (?!exp)
也是匹配一个零宽度的位置,不过这个位置的“断言”取表达式的反值,
例如 (?!exp) 表示 "exp" 前面的位置,如果 "exp" 不成立 ,匹配这个位置;如果 "exp" 成立,则不匹配。
同样,负向零宽断言也有“先行”和“后发”两种,负向零宽后发断言为 (?<!exp)
负向零宽后发断言(?<!exp)
负向零宽先行断言 (?!exp)
负向零宽断言要注意的跟正向的一样。
常用分组语法
常用分组语法 //分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
aaa bbb CD="123" fd //取出CD的值
grep -oP '(?<=CD=")d+' file
以 CD=" 为后发断言,匹配它后面的多个数字。
实例:
create_db_msg: {"rdsj817z94agw6656d42":["drds_mt_revu_0008","drds_mt_revu_0009","drds_mt_revu_0010","drds_mt_revu_0011","drds_mt_revu_0012","drds_mt_revu_0013","drds_mt_revu_0014","drds_mt_revu_0015"],"rdsb4sk15ab96g03gezp":["drds_mt_revu_0000","drds_mt_revu_0001","drds_mt_revu_0002","drds_mt_revu_0003","drds_mt_revu_0004","drds_mt_revu_0005","drds_mt_revu_0006","drds_mt_revu_0007"],"rdsv3q667r37agb27k8a":["drds_mt_revu_0016","drds_mt_revu_0017","drds_mt_revu_0018","drds_mt_revu_0019","drds_mt_revu_0020","drds_mt_revu_0021","drds_mt_revu_0022","drds_mt_revu_0023"]} [root@wolf test]# cat file |grep -oP '(?<=")rds.*?(?=":)' | sort | uniq rdsb4sk15ab96g03gezp rdsj817z94agw6656d42 rdsv3q667r37agb27k8a
注意:这里的 rds.*?中的?有特殊意义,默认rds.*会贪婪匹配到最后一个
参考:https://blog.51cto.com/hmtk520/2074219