前面我们学习了正则表达式的基础部分,现在我们来学习正则表达式的进阶部分。
学习链接(转载链接):https://www.zhihu.com/question/48219401/answer/742444326
1.零宽断言
无论是零宽还是断言,听起来都古古怪怪的,那先解释一下这两个词。
1.断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,
意思正则也可以像人类那样断定什么什么,比如"ss1aa2bb3",正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.
2.零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。
意思是讲明白了,那他有什么用呢?
我们来举个栗子:
假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构
"<span class="read-count">阅读数:641</span>"
其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?
下面先来讲几种类型的断言:
1.正向先行断言(正前瞻):
语法:(?=pattern)
作用:匹配pattern表达式的前面内容,不返回本身。
这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容
按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。
匹配什么内容呢?如果要所有内容那就是:
String reg=".+(?=</span>)";
String test = "<span class="read-count">阅读数:641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println("匹配结果:")
System.out.println(mc.group());
}
//匹配结果:
//<span class="read-count">阅读数:641
可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 d,那可以改成:
String reg="\d+(?=</span>)";
String test = "<span class="read-count">阅读数:641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配结果:
//641
大功告成!
2. 正向后行断言(正后顾):
语法:(?<=pattern)
作用:匹配pattern表达式的后面的内容,不返回本身。
有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。
上面的栗子,我们也可以用后行断言来处理.
//(?<=<span class="read-count">阅读数:)d+
String reg="(?<=<span class="read-count">阅读数:)\d+";
String test = "<span class="read-count">阅读数:641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配结果:
//641
就这么简单。
3. 负向先行断言(负前瞻)
语法:(?!pattern)
作用:匹配非pattern表达式的前面内容,不返回本身。
有正向也有负向,负向在这里其实就是非的意思。
举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”
现在要找到不是'的花朵'前面的祖国
用正则就可以这样写:
祖国(?!的花朵)
4. 负向后行断言(负后顾)
语法:(?<!pattern)
作用:匹配非pattern表达式的后面内容,不返回本身。
2. 捕获和非捕获
单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”
捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。
而根据命名方式的不同,又可以分为两种组:
1. 数字编号捕获组:
语法:(exp)
解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。
比如固定电话的:020-85653333
他的正则表达式为:(0d{2})-(d{8})
按照左括号的顺序,这个表达式有如下分组:
我们用Java来验证一下:
String test = "020-85653333";
String reg="(0\d{2})-(\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分组的个数有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"个分组为:"+mc.group(i));
}
}
输出结果:
分组的个数有:2
第0个分组为:020-85653333
第1个分组为:020
第2个分组为:85653333
可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。
2. 命名编号捕获组:
语法:(?
解释:分组的命名由表达式中的name指定
比如区号也可以这样写:(?