python的re模块中有贪婪匹配和非贪婪匹配之分,当使用*时会匹配零个或多个,使用+时会匹配一个或多个.当使用?在前边特殊符号前时会进行非贪婪匹配,匹配零个或者一个,今天主要讨论非贪婪匹配中存在的坑.
import re res = re.findall('a?','aaa') print(res) #['a', 'a', 'a', ''] res1 = re.findall('pa?','paaa') print(res1) #['pa'] res2 = re.findall('.?','aaaa') print(res2) #['a', 'a', 'a', 'a', '']
从上边例子中可以看出,当带有'?'的部分单独处于正则开头并且后边没有其它匹配条件时,匹配结果会多匹配一次,所以在res和res2中会多匹配一个空格;而当'?'部分在正则的中间或者尾部时,则不会出现多一次的情况,所以在res1中结果是'pa'.此时有人会问为什么res会匹配出空格,而res1在没匹配到时候没有空格?看下边的例子:
import re ret = re.findall('paa?','papaaa') print(ret) #['pa', 'paa'] ret1 = re.findall('(paa)?','papaaa') print(ret1) #['', '', 'paa', '', ''] ret2 = re.findall('a(?:paa)?','apapaaa') print(ret2) #['a', 'apaa', 'a']
上边例子中可以看出,只有当正则表达式只有一个单独的分组或者元字符时,加上'?'如果匹配不到才会出现空格,而且在ret1中可以看出,多匹配了一次空格.当正则是一串字符时,匹配出的就没有空字符,所以ret结果为['pa', 'paa'].
综上所述:当正则表达式中是以带'?'的部分开头并且没有其它匹配内容时,匹配不到会出现空字符,并且会多匹配一次;而当使用两个'?'时,结果肯定是匹配零个;如果正则是一个分组(即一个单独的整体时)才会匹配出空字符.