今天遇到一个正则表达式 regex = '<div class="div_result[sS]+?>([sS]+)</div>'
我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串,但结果只获取了<div></div>之间的内容,十分不解,上网查了之后才知道,原来括号具有获取匹配的作用:
(pattern)———会匹配pattern并获取这一匹配.
而问号除了表示零个或一个之外,还可以抑制贪婪匹配,默认情况下都是贪婪匹配(匹配的越多越好),如果同时有多个模式同时贪婪匹配,最后的结果是相互竞争妥协的结果。
import re def getRegResults(reg, data): pattern = re.compile(reg) resultLists = re.findall(pattern, data) return resultLists if __name__=='__main__': s="abcd_123e fg hk456" reg='abc.+([sS]+?)d+' reg2='([sS]+?)' reg3='([S]?)' reg4='([sS]+?)' reg5='([S]+)' print getRegResults(reg, s) print getRegResults(reg2, s) print getRegResults(reg5, s) print getRegResults(reg3, s) print getRegResults(reg4, s)
reference:
http://www.cnblogs.com/yirlin/archive/2006/04/12/373222.html
http://www.cnblogs.com/graphics/archive/2010/06/02/1749707.html