zoukankan      html  css  js  c++  java
  • 正则表达式参考手册

    正则表达式 元字符

    元字符,又叫字符集,就是用一些特殊符号表示特定种类的字符或位置。

    匹配字符

    • . 匹配除换行符以外的任意字符
    • w 匹配字母或数字或下划线或汉字
    • s 匹配任意的空白符
    • d 匹配数字

    匹配位置

    •  匹配单词的开始或结束
    • ^ 匹配字符串的开始
    • $ 匹配字符串的结束
    • G 上一个匹配的结尾(本次匹配开始)
    • A 字符串开头(类似^,但不受处理多行选项的影响)
    •  字符串结尾或行尾(不受处理多行选项的影响)
    • z 字符串结尾(类似$,但不受处理多行选项的影响)

    重复

    • * 重复零次或更多次
    • + 重复一次或更多次
    • ? 重复零次或一次
    • {n} 重复n次
    • {n,} 重复n次或更多次
    • {n,m} 重复n到m次
    • 正则表达式 元字符

    • 如果想匹配元字符本身或者正则中的一些特殊字符,使用转义。例如匹配*这个字符则使用*,匹配这个字符,使用\

      需要转义的字符:$()*+.[]?^{}|

      正则表达式 字符类

      当需要匹配明确的字符或字符集合时候,就用到字符类。

      特殊字符

      • hh 8进制值hh所表示的字符
      • xhh 16进制值hh所表示的字符
      • uhhhh 16进制值hhhh所表示的Unicode字符
      •  Tab
      •  换行符
      •  回车符
      • f 换页符
      • e Escape
      • cN ASCII控制字符。比如cC代表Ctrl+C
      • p{name} Unicode中命名为name的字符类,例如p{IsGreek}

      陈列

      • [aeiou] 匹配一个元音字符
      • [.?!] 匹配给定的一个标点

      范围

      • [0-9] 匹配0~9的数字,同d
      • [a-z] 匹配所有小写字母
      • [a-zA-Z] 匹配所有字母
      • [a-z0-9A-Z_] 等同于w

      正则表达式 反义

      表示不属于元字符或者字符类的字符

      反义元字符

      • W 匹配任意不是字母,数字,下划线,汉字的字符
      • S 匹配任意不是空白符的字符
      • D 匹配任意非数字的字符
      • B 匹配不是单词开头或结束的位置

      反义字符类

      • [^x] 匹配除了x以外的任意字符
      • [^aeiou] 匹配除了aeiou这几个字母以外的任意字符

      正则表达式 分支条件

      又叫逻辑运算符,在此XY表示两个表达式

      • XY X紧跟Y
      • X|Y 表示X或Y,从左到右,满足第一个条件就不会继续匹配了。

      正则表达式 分组

      在这里我把表达式统一以w为例:

      • (w) 被一个括号包围起来是一个整体,表示一个分组
      • (w)(w) 自动命名分组,第一个小括号是分组1,第二个小括号是分组2
      • (?'Word'w+)) 表示定义了一个叫做Word的分组
      • (?w+)) 表示定义了一个叫做Word的分组
      • (?:w+) 匹配exp,不捕获匹配的文本,也不给此分组分配组号

      正则表达式 反向引用

      后面的表达式可以引用前面的某个分组,用1表示,就好像分组1的值赋值给了1这个变量,这个变量可以在后面任意位置引用。

      • 1 表示分组1匹配的文本
      • k 表示分组Word匹配的文本

      匹配重复两个的英文,例如匹配Hello Hellolei123 lei123

      1. (w+)s+1
      2. (?w+)s+k

      正则表达式 零宽断言(正向和负向)

      零宽断言表示匹配字符的时候再添加一些定位条件,使匹配更精准。

      • w+(?=ing) 匹配以ing结尾的多个字符(不包括ing)
      • w+(?!ing) 匹配不是ing结尾的多个字符

      • (?<=re)w+ 匹配以re开头的多个字符(不包括re)
      • (?<!re)w+ 匹配不是re开头的多个字符

      • (?<=s)d+(?=s) 匹配两边是空白符的数字,不包括空白符

      正则表达式 贪婪与懒惰

      贪婪:匹配尽可能长的字符串

      懒惰:匹配尽可能短的字符串

      懒惰模式的启用只需在重复元字符之后加?既可。

      • *? 重复任意次,但尽可能少重复
      • +? 重复1次或更多次,但尽可能少重复
      • ?? 重复0次或1次,但尽可能少重复
      • {n,m}? 重复n到m次,但尽可能少重复
      • {n,}? 重复n次以上,但尽可能少重复

      正则表达式 处理选项

      在表达式里插记号的方式来启用绝大多数的模式,在正则的哪里插入,就从哪里启用。

      1. (?i):忽略大小写(CASE_INSENSITIVE)
      2. (?x):忽略空格字符(COMMENTS)
      3. (?s).匹配任意字符,包括换行符(DOTALL)
      4. (?m):多行模式(MULTILINE)
      5. (?u):对Unicode符大小写不敏感(UNICODE_CASE),必须启用CASE_INSENSITIVE
      6. (?d):只有' '才被认作一行的中止(UNIX_LINES)

      正则表达式 平衡组/递归匹配

      平衡组用于匹配嵌套层次结构,常用于匹配HTML标签(当HTML内容不规范,起始标签和结束标签数量不同时,匹配出正确配对的标签),在此把表达式统一以w为例。

      • (?'group'w) 捕获的分组(w匹配到的内容)命名为group,并压入堆栈
      • (?'-group'w) 捕获分组(w匹配到的内容)后,弹出group分组栈的栈顶内容(最后压入的捕获内容),堆栈本来为空,则本分组的匹配失败
      • (?(group)yes|no) 如果group栈非空匹配表达式yes,否则匹配表达式no
      • (?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败

      正则表达式 注释

      注释语法:(?#comment),这个语法的内容会被正则忽略,用于注释含义。可以放在正则表达式的任意位置。

  • 相关阅读:
    字节编码中文编码方式总结
    参数读取一个关于java.net.Socket的超时的问题
    属性处理器Spring攻略学习笔记(2.12)外部化Bean配置
    设置编译器让CodeBlock支持C99标准
    相机标记[置顶] OpenCV for Ios 学习笔记(6)-标记检测3
    宋体配置JAVA j2ee (一) 轻松入门
    连接固件Jlink v8固件修复
    css的使用和基本语法
    css语言基础css的选择符语法
    css语言基础css属性值的规范
  • 原文地址:https://www.cnblogs.com/yldIndex/p/8443889.html
Copyright © 2011-2022 走看看