zoukankan      html  css  js  c++  java
  • 正则表达式读书笔记

    初学了正则表达式,笔记如下:

    /b =>单词的开头或结尾,也就是单词的分界处,单词是由空格,标点符号或者换行来分隔。
    .  =>配除了换行符以外的任意字符,换行符是'/n',ASCII编码为10。
    *  =>指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配.
    .* =>匹配任意数量的不包含换行的字符。
    例子:
    /bhi/b.*/bLucy/b=>先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词.
    /d =>匹配一位数字(0,或1,或2,或……)。
    例子:
    0/d/d-/d/d/d/d/d/d/d/d =>以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字。可以这样写这个表达式:0/d{2}-/d{8}, 这里/d后面的{2}({8})的意思是前面/d必须连续重复匹配2次(8次)。
    /s =>匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等。
    /w =>匹配字母或数字或下划线或汉字等。
    例子:
    /ba/w*/b =>匹配以字母a开头的单词——先是某个单词开始处(/b),然后是字母a,然后是任意数量的字母或数字(/w*),最后是单词结束处(/b)。
    /d+ =>匹配1个或更多连续的数字。
    ^ =>匹配字符串的开始。
    $ =>匹配字符串的结束。
    例子:
    一个网站如果要求填写的QQ号必须为5位到12位数字时,可以使用:^/d{5,12}$。
    / =>取消元字符的特殊定义。
    例子:
    /.和/*和//。
    + =>重复一次或更多次。
    ? =>重复零次或一次。
    {n} =>重复n次。
    {n,} =>重复n次或更多次。
    {n,m} =>重复n到m次。
    例子:
    Windows/d+ =>匹配Windows后面跟1个或更多数字。
    ^/w+ =>匹配一行的第一个单词(或整个字符串的第一个单词或中文的第一个分隔符前的句子,具体匹配哪个意思得看选项设置)。
    问:如果想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办?
    答:很简单,你只需要在方括号里列出它们就行了。
    例子:
    [aeiou] =>匹配任何一个英文元音字母。
    [.?!] =>匹配标点符号(.或?或!)。
    [0-9] =>与/d完全一致的:一位数字。

    /W =>匹配任意不是字母,数字,下划线,汉字的字符。
    /S =>匹配任意不是空白符的字符。
    /D =>匹配任意非数字的字符。
    /B =>匹配不是单词开头或结束的位置。
    [^x] =>匹配除了x以外的任意字符。
    [^aeiou] =>匹配除了aeiou这几个字母以外的任意字符(注意是单个字符不是字符串)。
    例子:
    /S+ =>匹配不包含空白符的字符串。
    后向引用 =>使用小括号指定一个子表达式后,即为一个分组,默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,后向引用用于重复搜索前面某个分组匹配的文本。例如,/1代表分组1匹配的文本。
    /b(/w+)/b/s+/1/b可以用来匹配重复的单词,像go go, 或者kitty kitty这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(/b(/w+)/b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(/s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(/1)。
    你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>/w+)(或者把尖括号换成'也行:(?'Word'/w+)),这样就把/w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用/k<Word>,所以上一个例子也可以写成这样:/b(?<Word>/w+)/b/s+/k<Word>/b。
    语法:
    (exp) =>匹配exp,并捕获文本到自动命名的组里。
    (?<name>exp) =>匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)。
    (?:exp) =>匹配exp,不捕获匹配的文本,也不给此分组分配组号。
    (?=exp) =>匹配exp前面的位置。
    (?<=exp) =>匹配exp后面的位置。
    (?!exp) =>匹配后面跟的不是exp的位置。
    (?<!exp) =>匹配前面不是exp的位置。
    (?#comment) =>这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读。
    (?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。(零宽度,所以要前面加/w+之类的元字符,具体看例子)
    例子:
    /b/w+(?=ing/b) =>匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
    (?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。
    例子:
    (?<=/bre)/w+/b =>会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
    零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。
    例子:
    /d{3}(?!/d)匹配三位数字,而且这三位数字的后面不能是数字;/b((?!abc)/w)+/b匹配不包含连续字符串abc的单词。
    当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
    有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
    a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
    语法:
    *? =>重复任意次,但尽可能少重复。
    +? =>重复1次或更多次,但尽可能少重复。
    ?? =>重复0次或1次,但尽可能少重复。
    {n,m}? =>重复n到m次,但尽可能少重复。
    {n,}? =>重复n次以上,但尽可能少重复。

    结合Regex Tester使用,应该能很快初步了解正则表达式了

  • 相关阅读:
    微软外服 AlI In One
    js 循环多次和循环一次的时间的性能对比 All In One
    vue inject All In One
    Excel 表格数据倒置 All In One
    SVG tickets All In One
    OH MY ZSH All In One
    js array for loop performance compare All In One
    mac terminal show You have new mail All In one
    新闻视频 26 制作母版页
    转自牛腩 母版页和相对路径
  • 原文地址:https://www.cnblogs.com/hgy413/p/3693689.html
Copyright © 2011-2022 走看看