正则表达式简介
正则表达式 , 也称谓 REs , 本质上是一个微小且高度专业化的编程语言. 他被嵌入到许多语言当中 , 例如 python 就是通过 re 模块来提供给我们使用 , 正则表达式 是通过一些规则来哦描述那些你希望匹配的字符串 .
python的 正则表达式 是通过 C语言写的 , 所以效率非常得高 ( 效率就是生命 )
python的 正则表达式 可已解决大部分的字符串匹配问题 , 但是对于有些字符串来说 , 用正则表达式 是非常费心费力的 . 所以一小部分还需要牺牲运行效率 换回开发效率
开始进入正题
大多数的匹配 是匹配自身的 , 也就是寻找已知字符串在 文本中的位置 . 但是我们有时候并不需要匹配自身 , 我们需要匹配一类字符串 , 所以这个时候 我们就要用到上面所说的用正则表达式的一些规则来 确定这一类字符串的位置 .
我们来确定这些规则的时候 会用到一些字符 , 这写字符被称为 "元字符" 就是下面的这些字符
. ^ $ * + ? { } [ ] | ()
正事因为这些字符 正则表达式 才和 find 方法 , 有了天壤之别 . 我们初学正则表达式 , 几乎就是学习这些字符的使用方法 .
现在开始简单的介绍一下上面元字符的基本功能和使用
[ ] : 它 可以在里面盛放一些 你可能需要匹配到的字符 举个栗子 , [abc] 可以用来匹配到 a或b或c , 其中的一个字符 . [] 还有一个强大的功能就是 里面可以 放 " - " 用于指定匹配的范围 . 例如 [a-z] 可以匹配小写字母中的任何一个字母 需要特别注意的一点是 元字符( 就是上面的那些玩意 除了 ^ ) 放到括号中 不会触发他们的特殊功能也就是 , [.^+] 会匹配 . 或 * 或 + 其中的一个字符 . 你还可以用 脱字符 " ^ " 匹配方括号之中 , 没有列出来的其它字符 . ( 网上资料说的是 [] 中所有的元字符都失效 , 但是又说 ^ 可以用 , 可能是 ^ 在 [] 失去了作为元字符本来的意义 (标注在最前端) 变成了 脱字符的意思 )
: 最 为奇特的 应该就是反斜杠了 , 他掌握生杀大权 , 能把原本有特权的字符 变为平民 也能将 普通的字符升为贵族 . 当元字符的前面是一 个 ' '的时候元字符的特殊功能会被剥夺 . 例如你需要 匹配 " . " 你可以在前面加一个 来消除他的特殊功能 .
反斜杠后面也可以跟一些普通的字符用于表示特殊意义 , 例如 w 可以匹配任何单词字符 , 相当于[a-z0-9A-Z]
d |
匹配任何十进制数字 ; 相当于 [0-9] |
D |
和d相反 匹配任何非十进制数字的字符 ; 相当于 [^0-9] |
s |
匹配任何空白字符 ( 包含空格 , 换行符 , 制表符等 ) ; 相当于[ fv] |
S |
和s相反 , 匹配任何非空白字符 ; 相当于类[^t vf] |
w |
匹配任何单词字符 [a-zA-Z] |
W |
自己想. |
匹配单词的开始或者结束 |
|
B |
... |
他们可以包含在一个字符类当中 , 并且一样拥有特殊含义 例如 [s,.] 他将匹配任何空白字符 或 , 或 .
下面介绍一下 * 和 {}
我 们 说的这个 * 指的不是 * 的本身 (我们说过 元字符都有特殊能力) , 他跟在一个字符的后面 用于说明前一个字符 匹配 0 - 无 穷 次 . (当然也不是无穷 . 一种比喻罢了 . 实际上由于收到C语言 int 类型的限制 (为什么是C语言? 自己去前文看) 只能匹配大 概 20亿个 . )
正则表达式的默认重复规则是贪婪的 , 当你重复匹配一个 PE 时 系 统回去尽可能多的匹配 , 知道 匹配到 或者到了结尾都没有 才会退回 继续尝试 . ` 下面 我就又要举栗子 ( 栗子 : 为什么老是举我 ? 作者 : 因为你有急支糖浆呀 ! ) 现在我们说一下什么是 " 贪婪 " 先考虑以下表达式 a[bcb]*b , 首先需要匹配 'a ' 然后是 0 到多个 [bcd] 最后以 'b' 结尾 . 那么想象一下 如果 这个re匹配字符串 abcbd 会怎样 ?
步骤 | 匹配 | 说明 |
1 | a | 匹配 RE 的第一个字符 'a' |
2 | abcbd | 引擎在符合规则的情况下尽可能地匹配 [bcd]*,直到该字符串的结尾 |
3 | 失败 | 引擎尝试匹配 RE 最后一个字符 'b',但当前位置已经是字符串的结尾,所以失败告终 |
4 | abcb | 回退,所以 [bcd]* 匹配少一个字符 |
5 | 失败 | 再一次尝试匹配 RE 最后一个字符 'b',但字符串最后一个字符是 'd',所以失败告终 |
6 | abc | 再次回退,所以 [bcd]* 这次只匹配 'bc' |
7 | abcb | 再一次尝试匹配字符 'b',这一次字符串当前位置指向的字符正好是 'b',匹配成功 |
另一个 实现重复的字符是 + 用于指定前一个字符出现一次或者多次 , 前面我们说过 * 是出现 零次或多次 注意区别 . 还有一个表示重复的就是 ? 出现 0 次 或者 1 次 . 也就是不知道会不会有的时候用的.
有 的人可能有疑问了 这些我们都能用 {m,n} 来完成 为什么我们还要说这么多呢? 因为 匹配引擎对 * ? + 做了优化 所以 效率更高 为了效率我们就要讲 . 这个和 MySQL 数据库( 其他的我不了解 , 知道的少 ) 差不多 MySQL 语句大多数人喜欢 大写 就是因为 大写的话 速度会快一点 , 因为小写的语句最后也是转换成 大写执行的 . 为了这一点速度 , 程序猿们也是拼了 .
今天就到这里 , 明天会写一篇, 关于实际操作的 . 2 . 晚安 .