zoukankan      html  css  js  c++  java
  • RegExp正则表达式内容

    在线测试工具:http://leaverou.github.io/regexplained/

    http://rubular.com/(更准一些)

    RegExp 对象表示正则表达式,它是对字符串执行模式匹配的强大工具。

    直接量语法:/pattern/attributes

    创建 RegExp 对象的语法:new RegExp(pattern, attributes);

    参数

    参数 pattern 是一个字符串,指定了正则表达式的模式或其他正则表达式。

    参数 attributes 是一个可选的字符串,包含属性 "g"、"i" 和 "m",分别用于指定全局匹配、区分大小写的匹配和多行匹配。ECMAScript 标准化之前,不支持 m 属性。如果 pattern 是正则表达式,而不是字符串,则必须省略该参数。

    返回值:

    一个新的 RegExp 对象,具有指定的模式和标志。如果参数 pattern 是正则表达式而不是字符串,那么 RegExp() 构造函数将用与指定的 RegExp 相同的模式和标志创建一个新的 RegExp 对象。

    如果不用 new 运算符,而将 RegExp() 作为函数调用,那么它的行为与用 new 运算符调用时一样,只是当 pattern 是正则表达式时,它只返回 pattern,而不再创建一个新的 RegExp 对象。

    抛出:

    SyntaxError - 如果 pattern 不是合法的正则表达式,或 attributes 含有 "g"、"i" 和 "m" 之外的字符,抛出该异常。

    TypeError - 如果 pattern 是 RegExp 对象,但没有省略 attributes 参数,抛出该异常。

    修饰符

    修饰符描述
    i 执行对大小写不敏感的匹配。
    g 执行全局匹配(查找所有匹配而非在找到第一个匹配后停止)。
    m 执行多行匹配。

    方括号

    方括号用于查找某个范围内的字符:

    表达式描述
    [abc] 查找方括号之间的任何字符。
    [^abc] 查找任何不在方括号之间的字符。
    [0-9] 查找任何从 0 至 9 的数字。
    [a-z] 查找任何从小写 a 到小写 z 的字符。
    [A-Z] 查找任何从大写 A 到大写 Z 的字符。
    [A-z] 查找任何从大写 A 到小写 z 的字符。
    [adgk] 查找给定集合内的任何字符。
    [^adgk] 查找给定集合外的任何字符。
    (red|blue|green) 查找任何指定的选项。

    元字符

    元字符(Metacharacter)是拥有特殊含义的字符:

    元字符描述
    . 查找单个字符,除了换行和行结束符。
    w 查找单词字符。
    W 查找非单词字符。
    d 查找数字。
    D 查找非数字字符。
    s 查找空白字符。
    S 查找非空白字符。
     匹配单词边界。
    B 匹配非单词边界。
    查找 NUL 字符。
    查找换行符。
    f 查找换页符。
    查找回车符。
    查找制表符。
    v 查找垂直制表符。
    xxx 查找以八进制数 xxx 规定的字符。
    xdd 查找以十六进制数 dd 规定的字符。
    uxxxx 查找以十六进制数 xxxx 规定的 Unicode 字符。

    量词

    量词描述
    n+ 匹配任何包含至少一个 n 的字符串。
    n* 匹配任何包含零个或多个 n 的字符串。
    n? 匹配任何包含零个或一个 n 的字符串。
    n{X} 匹配包含 X 个 n 的序列的字符串。
    n{X,Y} 匹配包含 X 或 Y 个 n 的序列的字符串。
    n{X,} 匹配包含至少 X 个 n 的序列的字符串。
    n$ 匹配任何结尾为 n 的字符串。
    ^n 匹配任何开头为 n 的字符串。
    ?=n 匹配任何其后紧接指定字符串 n 的字符串。
    ?!n 匹配任何其后没有紧接指定字符串 n 的字符串。

    RegExp 对象属性

    属性描述FFIE
    global RegExp 对象是否具有标志 g。 1 4
    ignoreCase RegExp 对象是否具有标志 i。 1 4
    lastIndex 一个整数,标示开始下一次匹配的字符位置。 1 4
    multiline RegExp 对象是否具有标志 m。 1 4
    source 正则表达式的源文本。 1 4

    RegExp 对象方法

    方法描述FFIE
    compile 编译正则表达式。 1 4
    exec 检索字符串中指定的值。返回找到的值,并确定其位置。 1 4
    test 检索字符串中指定的值。返回 true 或 false。 1 4

    支持正则表达式的 String 对象的方法

    方法描述FFIE
    search 检索与正则表达式相匹配的值。 1 4
    match 找到一个或多个正则表达式的匹配。 1 4
    replace 替换与正则表达式匹配的子串。 1 4
    split 把字符串分割为字符串数组。 1 4
    字符说明

    将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“ ”匹配换行符。序列“\”匹配“”,“(”匹配“(”。

    ^

    匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“ ”或“ ”之后的位置匹配。

    $

    匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与“ ”或“ ”之前的位置匹配。

    *

    零次或多次匹配前面的字符或子表达式。例如,zo* 匹配“z”和“zoo”。* 等效于 {0,}。

    +

    一次或多次匹配前面的字符或子表达式。例如,“zo+”与“zo”和“zoo”匹配,但与“z”不匹配。+ 等效于 {1,}。

    ?

    零次或一次匹配前面的字符或子表达式。例如,“do(es)?”匹配“do”或“does”中的“do”。? 等效于 {0,1}。

    {n}

    是非负整数。正好匹配 n 次。例如,“o{2}”与“Bob”中的“o”不匹配,但与“food”中的两个“o”匹配。

    {n,}

    是非负整数。至少匹配 次。例如,“o{2,}”不匹配“Bob”中的“o”,而匹配“foooood”中的所有 o。“o{1,}”等效于“o+”。“o{0,}”等效于“o*”。

    {n,m}

    M 和 n 是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如,“o{1,3}”匹配“fooooood”中的头三个 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和数字之间。

    ?

    当此字符紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串“oooo”中,“o+?”只匹配单个“o”,而“o+”匹配所有“o”。

    .

    匹配除“ ”之外的任何单个字符。若要匹配包括“ ”在内的任意字符,请使用诸如“[sS]”之类的模式。

    (pattern)

    匹配 pattern 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果“匹配”集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用“(”或者“)”。

    (?:pattern)

    匹配 pattern 但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用“or”字符 (|) 组合模式部件的情况很有用。例如,'industr(?:y|ies) 是比 'industry|industries' 更经济的表达式。

    (?=pattern)

    执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?=95|98|NT|2000)' 匹配“Windows 2000”中的“Windows”,但不匹配“Windows 3.1”中的“Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

    (?!pattern)

    执行反向预测先行搜索的子表达式,该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?!95|98|NT|2000)' 匹配“Windows 3.1”中的 “Windows”,但不匹配“Windows 2000”中的“Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

    x|y

    匹配 x 或 y。例如,'z|food' 匹配“z”或“food”。'(z|f)ood' 匹配“zood”或“food”。

    [xyz]

    字符集。匹配包含的任一字符。例如,“[abc]”匹配“plain”中的“a”。

    [^xyz]

    反向字符集。匹配未包含的任何字符。例如,“[^abc]”匹配“plain”中的“p”。

    [a-z]

    字符范围。匹配指定范围内的任何字符。例如,“[a-z]”匹配“a”到“z”范围内的任何小写字母。

    [^a-z]

    反向范围字符。匹配不在指定的范围内的任何字符。例如,“[^a-z]”匹配任何不在“a”到“z”范围内的任何字符。

    

    匹配一个字边界,即字与空格间的位置。例如,“er”匹配“never”中的“er”,但不匹配“verb”中的“er”。

    B

    非字边界匹配。“erB”匹配“verb”中的“er”,但不匹配“never”中的“er”。

    cx

    匹配 x 指示的控制字符。例如,cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是“c”字符本身。

    d

    数字字符匹配。等效于 [0-9]。

    D

    非数字字符匹配。等效于 [^0-9]。

    f

    换页符匹配。等效于 x0c 和 cL。

    换行符匹配。等效于 x0a 和 cJ。

    匹配一个回车符。等效于 x0d 和 cM。

    s

    匹配任何空白字符,包括空格、制表符、换页符等。与 [ f v] 等效。

    S

    匹配任何非空白字符。与 [^ f v] 等效。

    制表符匹配。与 x09 和 cI 等效。

    v

    垂直制表符匹配。与 x0b 和 cK 等效。

    w

    匹配任何字类字符,包括下划线。与“[A-Za-z0-9_]”等效。

    W

    与任何非单词字符匹配。与“[^A-Za-z0-9_]”等效。

    xn

    匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,“x41”匹配“A”。“x041”与“x04”&“1”等效。允许在正则表达式中使用 ASCII 代码。

    num

    匹配 num,此处的 num 是一个正整数。到捕获匹配的反向引用。例如,“(.)1”匹配两个连续的相同字符。

    n

    标识一个八进制转义码或反向引用。如果 n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。

    nm

    标识一个八进制转义码或反向引用。如果 nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 nm 前面至少有 n 个捕获,则 n 是反向引用,后面跟有字符 m。如果两种前面的情况都不存在,则 nm 匹配八进制值 nm,其中 和 m 是八进制数字 (0-7)。

    nml

    当 n 是八进制数 (0-3),m 和 l 是八进制数 (0-7) 时,匹配八进制转义码 nml

    un

    匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。例如,u00A9 匹配版权符号 (©)。

    运算符说明

    转义符

    (), (?:), (?=), []

    括号和中括号

    *, +, ?, {n}, {n,}, {n,m}

    限定符

    ^, $, 任何元字符、任何字符

    定位点和序列

    |

    替换

    字符具有高于替换运算符的优先级,使得“m|food”匹配“m”或“food”。若要匹配“mood”或“food”,请使用括号创建子表达式,从而产生“(m|f)ood”。

    特殊字符注释

    $

    匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,那么 $ 还匹配 或 前面的位置。若要匹配 $ 字符本身,请使用 $。

    ( )

    标记子表达式的开始和结束。可以捕获子表达式以供以后使用。若要匹配这两个字符,请使用 ( 和 )。

    *

    零次或多次匹配前面的字符或子表达式。若要匹配 * 字符,请使用 *。

    +

    一次或多次匹配前面的字符或子表达式。若要匹配 + 字符,请使用 +。

    .

    匹配除换行符 之外的任何单个字符。若要匹配 .,请使用 。

    [ ]

    标记中括号表达式的开始。若要匹配这些字符,请使用 [ 和 ]。

    ?

    零次或一次匹配前面的字符或子表达式,或指示“非贪心”限定符。若要匹配 ? 字符,请使用 ?。

    将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,字符 n 匹配字符 n。 匹配换行符。序列 \ 匹配 ,序列 ( 匹配 (。

    /

    表示文本正则表达式的开始或结束。若要匹配 / 字符,请使用 /。

    ^

    匹配输入字符串开始处的位置,但在中括号表达式中使用的情况除外,在那种情况下它对字符集求反。若要匹配 ^ 字符本身,请使用 ^。

    { }

    标记限定符表达式的开始。若要匹配这些字符,请使用 { 和 }。

    |

    指出在两个项之间进行选择。要匹配 |,请使用 |。

    非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

    转义序列

     
    字符含义

    cx

    匹配 x 指示的控制字符。例如,cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是“c”字符本身。

    f

    换页符匹配。等效于 x0c 和 cL。

    换行符匹配。等效于 x0a 和 cJ。

    匹配一个回车符。等效于 x0d 和 cM。

    s

    匹配任何空白字符,包括空格、制表符、换页符等。与 [f v] 等效。

    S

    匹配任何非空白字符。与 [^ f v] 等效。

    制表符匹配。与 x09 和 cI 等效。

    v

    垂直制表符匹配。与 x0b 和 cK 等效。

    限定符含义

     
    字符说明

    *

    零次或多次匹配前面的字符或子表达式。例如,zo* 匹配 z 和 zoo。* 等效于 {0,}。

    +

    一次或多次匹配前面的字符或子表达式。例如,zo+ 匹配 zo 和 zoo,但不匹配 z。+ 等效于 {1,}。

    ?

    零次或一次匹配前面的字符或子表达式。例如,do(es)? 匹配 do 或 does 中的 do。? 等效于 {0,1}。

    {n}

    是非负整数。正好匹配 n 次。例如,o{2} 不匹配 Bob 中的 o,但匹配 food 中的两个 o。

    {n,}

    是非负整数。至少匹配 次。例如,o{2,} 不匹配 Bob 中的 o,而匹配 foooood 中的所有 o。o{1,} 等效于 o+。o{0,} 等效于 o*。

    {n,m}

    定位点工作方式

    定位点提供该能力。定位点使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。下表包含正则表达式定位点以及它们的含义的列表:

     
    字符说明

    ^

    匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 或 之后的位置匹配。

    $

    匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 或 之前的位置匹配。

    

    匹配一个字边界,即字与空格间的位置。

    B

    非字边界匹配。

    m 和 n 是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如,o{1,3} 匹配 fooooood 中的头三个 o。o{0,1} 等效于 o?。注意:您不能将空格插入逗号和数字之间。

    替换使用 | 字符来允许在两个或多个替换选项之间进行选择。

    /^Chapter|Section [1-9][0-9]{0,1}$/

    例子:

    http://msdn.microsoft.com:80/scripting/default.htm——>/(w+)://([^/:]+)(:d*)?([^# ]*)/(第一个括号子表达式捕获 Web 地址的协议部分。该子表达式匹配在冒号和两个正斜杠前面的任何单词。第二个括号子表达式捕获地址的域地址部分。子表达式匹配 / 或 : 之外的一个或多个字符。第三个括号子表达式捕获端口号(如果指定了的话)。该子表达式匹配冒号后面的零个或多个数字。只能重复一次该子表达式。最后,第四个括号子表达式捕获 Web 地址指定的路径和/或页信息。该子表达式能匹配不包括 # 或空格字符的任何字符序列。)

    匹配空行——>/^s*$/

    匹配 HTML 标记——>/<s*(S+)(s[^>]*)?>[sS]*<s*/1s*>/

    Is is the cost of of gasoline going up up?——>/([a-z]+) 1/gi(使用反向引用,正如 [a-z]+ 指定的,包括一个或多个字母。正则表达式的第二部分是对以前捕获的子匹配项的引用,即,单词的第二个匹配项正好由括号表达式匹配。1 指定第一个子匹配项。字边界元字符确保只检测整个单词。否则,诸如“is issued”或“this is”之类的词组将不能正确地被此表达式识别。)

    var ss = "Is is the cost of of gasoline going up up?.
    ";
    var re = /([a-z]+) 1/gim;       //Create regular expression pattern.
    var rv = ss.replace(re,"$1");   //Replace two occurrences with one.
    rv:Is the cost of gasoline going up?.
  • 相关阅读:
    Linux
    python 鸢尾花数据集报表展示
    python 词云
    毕业设计回顾
    editor.md
    杂记
    垃圾回收器
    杂记
    随笔
    杂记
  • 原文地址:https://www.cnblogs.com/jymz/p/4046267.html
Copyright © 2011-2022 走看看