zoukankan      html  css  js  c++  java
  • 正则表达式与通配符

    POSIX 规范

      Portable Operating System Interface for uniX
      定义了 UNIX 操作系统应当支持的功能

      包括:

    BRE(Basic Regular Expression,基本型正则表达式)
    GNU 也对 BRE 做了扩展也支持 『(』、『)』、『{』、『}』、『+』、『?』、『|』 但是需要转义
    命令:grep、vi、sed

    ERE(Extended Regular Express,扩展型正则表达式)
    虽然 BRE 名为“基本”而 ERE 名为“扩展”,但 ERE 并不要求兼容 BRE 的语法,而是自成一体。因此其中的元字符不用转义(在元字符之前添加反斜线会取消其特殊含义)
    『(』、『)』、『{』、『}』、『+』、『?』、『|』 不需要转义
    命令:egrep、awk

     

    几种 POSIX 流派的说明

    流派

    说明

    工具

    BRE

    (、)、{、}都必须转义使用,不支持 +、?、|

    grep、sed、vi(但 vi 支持这些多选结构和反向引用)

    GNU BRE

    (、)、{、}、+、?、|都必须转义使用

    GNU grep、GNU sed

    ERE

    元字符不必转义,+、?、(、)、{、}、|可以直接使用,1、2 的支持不确定

    egrep、awk

    GNU ERE

    元字符不必转义,+、?、(、)、{、}、|可以直接使用,支持1、2

    grep –E、GNU awk

     

     

    常用 Linux/Unix 工具中的表示法

        

    PCRE 记法

    vi/vim

    grep

    awk

    sed

    *

    *

    *

    *

    *

    +

    +

    +

    +

    +

    ?

    =

    ?

    ?

    ?

    {m,n}

    {m,n}

    {m,n}

    {m,n}

    {m,n}

     *

    < >

    < >

    < >

    y < >

    (…|…)

    …‖…

    …‖…

    (…|…)

    (…|…)

    (…)

    (…)

    (…)

    1 2

    1 2

    1 2

    不支持

    1 2

           常见3中类型正则表达式比较

      

    字符

    说明

    Basic RegEx

    Extended RegEx

    python RegEx

    Perl regEx

    转义

     

    ^

    匹配行首,例如'^dog'匹配以字符串dog开头的行(注意:awk 指令中,'^'则是匹配字符串的开始)

    ^

    ^

    ^

    ^

    $

    匹配行尾,例如:'^、dog$'匹配以字符串 dog 为结尾的行(注意:awk 指令中,'$'则是匹配字符串的结尾)

    $

    $

    $

    $

    ^$

    匹配空行

    ^$

    ^$

    ^$

    ^$

    ^string$

    匹配行,例如:'^dog$'匹配只含一个字符串 dog 的行

    ^string$

    ^string$

    ^string$

    ^string$

    <

    匹配单词,例如:'<frog' (等价于'frog'),匹配以 frog 开头的单词

    <

    <

    不支持

    不支持(但可以使用来匹配单词,例如:'frog')

    >

    匹配单词,例如:'frog>'(等价于'frog '),匹配以 frog 结尾的单词

    >

    >

    不支持

    不支持(但可以使用来匹配单词,例如:'frog')

    <x>

    匹配一个单词或者一个特定字符,例如:'<frog>'(等价于'frog')、'<G>'

    <x>

    <x>

    不支持

    不支持(但可以使用来匹配单词,例如:'frog'

    ()

    匹配表达式,例如:不支持'(frog)'

    不支持(但可以使用(),如:(dog)

    ()

    ()

    ()

    ()

    匹配表达式,例如:不支持'(frog)'

    ()

    不支持(同())

    不支持(同())

    不支持(同())

    匹配前面的子表达式 0 次或 1 次(等价于{0,1}),例如:where(is)?能匹配"where" 以及"whereis"

    不支持(同?)

    ?

    匹配前面的子表达式 0 次或 1 次(等价于'{0,1}'),例如:'where(is)? '能匹配 "where"以及"whereis"

    ?

    不支持(同?)

    不支持(同?)

    不支持(同?)

    ?

    当该字符紧跟在任何一个其他限制符(*, +, ?, {n},{n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个"o",而 'o+' 将匹配所有 'o'

    不支持

    不支持

    不支持

    不支持

    .

    匹配除换行符(' ')之外的任意单个字符(注意:awk 指令中的句点能匹配换行符)

    .

    .(如果要匹配包括“ ”在内的任何一个字符,请使用:'(^$)|(.)

    .

    .(如果要匹配包括“ ”在内的任何一个字符,请使用:' [. ] '

    *

    匹配前面的子表达式 0 次或多次(等价于{0, }),例如:zo* 能匹配 "z"以及 "zoo"

    *

    *

    *

    *

    +

    匹配前面的子表达式 1 次或多次(等价于'{1, }'),例如:'where(is)+ '能匹配 "whereis"以及"whereisis"

    +

    不支持(同+)

    不支持(同+)

    不支持(同+)

    +

    匹配前面的子表达式 1 次或多次(等价于{1, }),例如:zo+能匹配 "zo"以及 "zoo",但不能匹配 "z"

    不支持(同+)

    +

    +

    +

    {n}

    n 必须是一个 0 或者正整数,匹配子表达式 n 次,例如:zo{2}能匹配

    不支持(同{n})

    {n}

    {n}

    {n}

    {n,}

    "zooz",但不能匹配 "Bob"n 必须是一个 0 或者正整数,匹配子表达式大于等于 n次,例如:go{2,}

    不支持(同{n,})

    {n,}

    {n,}

    {n,}

    {n,m}

    能匹配 "good",但不能匹配 godm 和 n 均为非负整数,其中 n <= m,最少匹配 n 次且最多匹配 m 次 ,例如:o{1,3}将配"fooooood" 中的前三个 o(请注意在逗号和两个数之间不能有空格)

    不支持(同{n,m})

    {n,m}

    {n,m}

    {n,m}

    x|y

    匹配 x 或 y,例如: 不支持'z|(food)' 能匹配 "z" 或"food";'(z|f)ood' 则匹配"zood" 或 "food"

    不支持(同x|y)

    x|y

    x|y

    x|y

    [0-9]

    匹配从 0 到 9 中的任意一个数字字符(注意:要写成递增)

    [0-9]

    [0-9]

    [0-9]

    [0-9]

    [xyz]

    字符集合,匹配所包含的任意一个字符,例如:'[abc]'可以匹配"lay" 中的 'a'(注意:如果元字符,例如:. *等,它们被放在[ ]中,那么它们将变成一个普通字符)

    [xyz]

    [xyz]

    [xyz]

    [xyz]

    [^xyz]

    负值字符集合,匹配未包含的任意一个字符(注意:不包括换行符),例如:'[^abc]' 可以匹配 "Lay" 中的'L'(注意:[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符)

    [^xyz]

    [^xyz]

    [^xyz]

    [^xyz]

    [A-Za-z]

    匹配大写字母或者小写字母中的任意一个字符(注意:要写成递增)

    [A-Za-z]

    [A-Za-z]

    [A-Za-z]

    [A-Za-z]

    [^A-Za-z]

    匹配除了大写与小写字母之外的任意一个字符(注意:写成递增)

    [^A-Za-z]

    [^A-Za-z]

    [^A-Za-z]

    [^A-Za-z]

    d

    匹配从 0 到 9 中的任意一个数字字符(等价于 [0-9])

    不支持

    不支持

    d

    d

    D

    匹配非数字字符(等价于 [^0-9])

    不支持

    不支持

    D

    D

    S

    匹配任何非空白字符(等价于[^f v])

    不支持

    不支持

    S

    S

    s

    匹配任何空白字符,包括空格、制表符、换页符等等(等价于[ f v])

    不支持

    不支持

    s

    s

    W

    匹配任何非单词字符 (等价于[^A-Za-z0-9_])

    W

    W

    W

    W

    w

    匹配包括下划线的任何单词字符(等价于[A-Za-z0-9_])

    w

    w

    w

    w

    B

    匹配非单词边界,例如:'erB' 能匹配 "verb" 中的'er',但不能匹配"never" 中的'er'

    B

    B

    B

    B

    

    匹配一个单词边界,也就是指单词和空格间的位置,例如: 'er' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的'er'

    

    

    

    

    匹配一个横向制表符(等价于 x09和 cI)

    不支持

    不支持

    v

    匹配一个垂直制表符(等价于 x0b和 cK)

    不支持

    不支持

    v

    v

    匹配一个换行符(等价于 x0a 和cJ)

    不支持

    不支持

    f

    匹配一个换页符(等价于x0c 和cL)

    不支持

    不支持

    f

    f

    匹配一个回车符(等价于 x0d 和cM)

    不支持

    不支持

    \

    匹配转义字符本身""

    \

    \

    \

    \

    cx

    匹配由 x 指明的控制字符,例如:cM匹配一个Control-M 或回车符,x 的值必须为A-Z 或 a-z 之一,否则,将 c 视为一个原义的 'c' 字符

    不支持

    不支持

     

    cx

    xn

    匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长,例如:'x41' 匹配 "A"。'x041' 则等价于'x04' & "1"。正则表达式中可以使用 ASCII 编码

    不支持

    不支持

     

    xn

    um

    匹配 num,其中 num是一个正整数。表示对所获取的匹配的引用

    不支持

    um

    um

     

    [:alnum:]

    匹配任何一个字母或数字([A-Za-z0-9]),例如:'[[:alnum:]] '

    [:alnum:]

    [:alnum:]

    [:alnum:]

    [:alnum:]

    [:alpha:]

    匹配任何一个字母([A-Za-z]), 例如:' [[:alpha:]] '

    [:alpha:]

    [:alpha:]

    [:alpha:]

    [:alpha:]

    [:digit:]

    匹配任何一个数字([0-9]),例如:'[[:digit:]] '

    [:digit:]

    [:digit:]

    [:digit:]

    [:digit:]

    [:lower:]

    匹配任何一个小写字母([a-z]), 例如:' [[:lower:]] '

    [:lower:]

    [:lower:]

    [:lower:]

    [:lower:]

    [:upper:]

    匹配任何一个大写字母([A-Z])

    [:upper:]

    [:upper:]

    [:upper:]

    [:upper:]

    [:space:]

    任何一个空白字符: 支持制表符、空格,例如:' [[:space:]] '

    [:space:]

    [:space:]

    [:space:]

    [:space:]

    [:blank:]

    空格和制表符(横向和纵向),例如:'[[:blank:]]'ó'[s v]'

    [:blank:]

    [:blank:]

    [:blank:]

    [:blank:]

    [:graph:]

    任何一个可以看得见的且可以打印的字符(注意:不包括空格和换行符等),例如:'[[:graph:]] '

    [:graph:]

    [:graph:]

    [:graph:]

    [:graph:]

    [:print:]

    任何一个可以打印的字符(注意:不包括:[:cntrl:]、字符串结束符''、EOF 文件结束符(-1), 但包括空格符号),例如:'[[:print:]] '

    [:print:]

    [:print:]

    [:print:]

    [:print:]

    [:cntrl:]

    任何一个控制字符(ASCII 字符集中的前 32 个字符,即:用十进制表示为从 0 到31,例如:换行符、制表符等等),例如:' [[:cntrl:]]'

    [:cntrl:]

    [:cntrl:]

    [:cntrl:]

    [:cntrl:]

    [:punct:]

    任何一个标点符号(不包括:[:alnum:]、[:cntrl:]、[:space:]这些字符集)

    [:punct:]

    [:punct:]

    [:punct:]

    [:punct:]

    [:xdigit:]

    任何一个十六进制数(即:0-9,a-f,A-F)

    [:xdigit:]

    [:xdigit:]

    [:xdigit:]

    [:xdigit:]

     通配符

      文本过滤工具里,都是用正则表达式, awk,sed,grep

      通配符多用在文件名上, ls find ,cp

      

    通配符是先解释,再执行
    通配符不匹配,会原样输出
    只适用于单层路径
    可用于文件名

     

     

    ?字符代表单个字符
    *代表任意数量的字符
    [...]匹配方括号之中的任意一个字符,比如[aeiou]可以匹配五个元音字母。
    [start-end]表示一个连续的范围
    [^...]和[!...]表示匹配不在方括号里面的字符(不包括空字符)。这两种写法是等价的
    {...} 表示匹配大括号里面的所有模式,模式之间使用逗号分隔
    {start..end}会匹配连续范围的字符。

      http://www.ruanyifeng.com/blog/2018/09/bash-wildcards.html

    https://www.infoq.cn/article/2011/07/regular-expressions-6-POSIX

    https://www.cnblogs.com/lixuwu/p/7816335.html

  • 相关阅读:
    mysql数据索引
    JQuery学习
    (原创)JAVA多线程一传统多线程
    JAVA常用的XML解析方法
    java集合比较
    Hibernate总结3
    Hibernate总结4之HQL
    HDU5716, HDU5745【dp+bitset】
    Can of Worms 【迭代/线段树】
    CSU 1802 小X的战斗力【拓扑dp】
  • 原文地址:https://www.cnblogs.com/siqi/p/12112514.html
Copyright © 2011-2022 走看看