一、REGEXP对象
1.字面量
2.构造函数
字面量
字面量是直接通过/.../
创建RegExp对象实例。
var reg = /is/
var text = 'He is a boy.'
var result = text.replace(reg, 'IS') // 'He IS a boy.'
构造函数
构造函数版本看起来比较像Java中创建实例的样子,但是正如不推荐使用new Array
而是使用[]
创建数组一样,推荐使用字面量创建RegExp对象实例。
var reg = new RegExp('\bis\b', 'g') var text = 'He is a boy. It is a dog' var result = text.replace(reg, 'IS') // 'He IS a boy. It IS a dog'
修饰符
在正常情况下,正则匹配到第一个匹配项则停止,并且默认大小写敏感,如果想修改默认选项,则需要修饰符。值得一提,修饰符可以同时使用,比如我想要全局大小写不敏感,则同时在正则末尾加上gi
g
:global 全文搜索
i
:ignore case 忽略大小写
m
:multiple lines 多行搜索
var reg = /is/gi var text = 'He is a boy. It Is a dog' var result = text.replace(reg, 0) // 'He 0 a boy. It 0 a dog'
二、元字符和字符类
元字符
正则表达式由两种基本字符类型组成:
1.原义(正常)文本字符:代表本身含义的字符,如:a、b、c、1、2、3等。
2.元字符:元字符是在正则表达式中有特殊含义的非字母字符,如代表单词边界,可以是单词的开头或结尾。
常见的符号元字符:
*+?$^.|(){}[]
字符类
一般情况下,正则表达式一个字符对应字符串一个字符。比如,表达式ab
的含义就是ab
加上一个
(水平制表符)。
但是,很多时候,我们不想匹配某个字符,而想匹配某类字符。此时,我们可以使用元字符[]
来构建一个简单的类。
所谓类是指符合某些特性的对象,一个泛指,而不是特指某个字符。表达式[abc]
把字符a
或b
或c
归为一类,可以匹配这类字符。
示例:
let reg = /[abc]/g let text = 'a1b2c3d4e5' text.replace(reg, 'X') // X1X2X3d4e5
可以发现,当正则表达式匹配到a
或b
或c
时,自动替换为X
字符类取反
很多时候回碰到这么一种情况,即不想匹配某些字符,其他都匹配。此时,可以使用字符类取反——使用元字符`^创建反向类,即不属于某类的内容。
表达式[^abc]
表示不是字符a
或b
或c
的内容。
示例:
let reg = /[^abc]/g let text = 'a1b2c3d4e5' text.replace(reg, 'X') // aXbXcXXXXX
结果表明,当表达式匹配到a
或b
或c
时,不进行处理,其余的字符都转换为了X
三、范围类
在使用正则表达式时,很多时候,我们会想要匹配a~z的所有字母,很多人想到,可以使用字符类[abcdefg...z]
,但是,这种方法需要输入所有需要匹配的字母。那么,有没有简单点的方法呢?
所幸,正则表达式提供了范围类,范围类可以让我们使用[a-z]
来连接两个字符表示从a到z的任意字符。
基本用法
let text = 'a1b2d3x4z5' let reg = /[a-z]/g text.replace(reg, 'Q') // Q1Q2Q3Q4Q5
tips:值得注意的是,范围类是闭区间,即:[a-z]
包含a和z
范围类的连写
使用范围类有一个小技巧:在[]
组成的类内部是可以连写的,比如:[a-zA-Z]
let text = 'a1B2d3X4Z5' let reg = /[a-zA-Z]/g text.replace(reg, 'Q') // Q1Q2Q3Q4Q5
四、预定义类
正则表达式提供预定义类来匹配常见的字符类
字符 | 等价类 | 含义 |
---|---|---|
. | [^ ] | 除了回车符和换行符以外的所有字符 |
d | [0-9] | 数字字符 |
D | [^0-9] | 非数字字符 |
s | [ x0Bf ] | 空白符 |
S | [^ x0Bf ] | 非空白符 |
w | [a-zA-Z_0-9] | 单词字符(字母、数字、下划线) |
W | [^a-zA-Z_0-9] | 非单词字符 |
使用预定义类可以快速匹配目标,如:匹配一个ab+数字+任意字符,使用字符类、范围类需要书写大量的代码,而使用预定义类只需要这样写:
/abd/
边界
正则表达式还提供了几个常用的边界匹配字符
字符 | 含义 |
---|---|
^ | 以xxx开始 |
$ | 以xxx结束 |
单词边界 | |
B | 非单词边界 |
当我们只想匹配一段话中中的部分单词而不是单词中的字母时,边界往往很有用
单词边界与非单词边界
有时,我想匹配一句话中的is单词,而不想匹配在单词中的is字母,此时,使用单词边界可以轻松解决这个问题:
let text = 'This is a boy' let reg1 = /is/g let reg2 = /is/g text.replace(reg1, 'IS') // 没有使用单词边界区分,结果为:ThIS IS a boy text.replace(reg2, 'IS') // 使用了单词边界进行区分,结果为:This IS a boy
而当我只想匹配作为单词结尾的is时,该怎么办?此时可以机智的混用单词边界与非单词边界:
let text = 'This is a boy' let reg3 = /Bis/g text.replace(reg3, 'IS') // ThIS is a boy
^ 和 $ —— 开始与结尾
很多使用,我们会想匹配开头或结尾的字符,使用^
和 $
可以完美的解决这个问题:
let text = '@123@abc@' let reg1 = /@/g text2.replace(reg1, 'Q') // 没有使用^和$,匹配了所有的@,结果为:Q123QabcQ let reg2 = /^@/g text.replace(reg2, 'Q') // 使用^匹配开头的@,结果为:Q123@abc@ let reg3 = /@$/g text.replace(reg3, 'Q') // 使用$匹配结尾的@,结果为:@123@abcQ
tips:实际使用中^
需要写在匹配项的前方,而$
需要卸载匹配项的后方
在多行的情况下使用^和$
在多行的情况下,使用m
进入多行模式才能匹配到每行的开头和结尾匹配字符:
let text = '@123 @456 @789' let reg1 = /^@d/g text.replace(reg1, 'Q') /* 由于换行实际上只是一个换行符字符,在正常模式下,依然看做一段字符 结果为: Q23 @456 @789 */ let reg2 = /^@d/gm text.replace(reg2, 'Q') /* 添加了m进入多行模式: 结果为: Q23 Q56 Q89 */
五、量词
很多时候,我们需要匹配一个连续出现很多次字符的字符串,比如,我们要匹配一个连续出现20次的数字的字符串,按照之前的写法:
dddddddddddddddddddd
是不是感觉快疯了?很庆幸,使用正则提供的量词,我们就可以快速解决这个问题。
量词的使用方法如下:
字符 | 含义 |
---|---|
? | 出现零次或一次(最多出现一次) |
+ | 出现一次或多次(至少出现一次) |
* | 出现零次或多次(任意次) |
{n} | 出现n次 |
{n,m} | 出现n到m次 |
{n,} | 至少出现n次 |
那么该如何使用量词实现之前的问题?
很简单,只需要:
d{20}
如果想要匹配最多出现n次该怎么办?很多人会想模仿至少出现n次,写成{,n}
,但是正则会直接将其当做普通字符串,只有写成{0, n}
才能实现匹配至多n次。