贪婪 vs 不贪婪

zoukankan html css js c++ java

贪婪 vs 不贪婪
当重复一个正则表达式时，如用 a*，操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号时这个事实经常困扰你。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的
```
#!python
>>> s = '<html><head><title>Title</title>'
>>> len(s)
32
>>> print re.match('<.*>', s).span()
(0, 32)
>>> print re.match('<.*>', s).group()
<html><head><title>Title</title>
```
RE 匹配在 "<html>" 中的 "<"，.* 消耗掉字符串的剩余部分。在 RE 中保持更多的左，虽然 > 不能匹配在字符串结尾，因此正则表达式必须一个字符一个字符地回溯，直到它找到 > 的匹配。最终的匹配从 "<html" 中的 "<" 到 "</title>" 中的 ">",这并不是你所想要的结果。

在这种情况下，解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?，尽可能匹配小的文本。在上面的例子里， ">" 在第一个 "<" 之后被立即尝试，当它失败时，引擎一次增加一个字符，并在每步重试 ">"。这个处理将得到正确的结果：
```
#!python
>>> print re.match('<.*?>', s).group()
<html>
```
注意用正则表达式分析 HTML 或 XML 是痛苦的。变化混乱的模式将处理常见情况，但 HTML 和 XML 则是明显会打破正则表达式的特殊情况；当你编写一个正则表达式去处理所有可能的情况时，模式将变得非常复杂。象这样的任务用 HTML 或 XML 解析器。
查看全文

相关阅读:
[转]来扯点ionic3[2] 页面一线牵珍惜这段缘
 [转]ionic工作原理
 [转]禁止浏览器自动保存密码弹框
 [转]git提交代码时遇到代码库有更新以及本地有更新的解决方法
 [转]Angular 4 *ngIf/Else
[转]Angular4 引用 material dialog时自定义对话框/deep/.mat-dialog-container
ES之五：ElasticSearch聚合
 Logstash之四：配置说明
 Logstash之三：命令行中常用的命令
 Logstash之二：原理

原文地址：https://www.cnblogs.com/kuihua/p/5971041.html