zoukankan      html  css  js  c++  java
  • PHP正则表达式

    正则表达式为什么前后要加斜杠 /

    头尾两个斜杠/是正则表达式的限定符,这是Perl正则的标准,而PHP支持的正则表达式就是Perl正则的规范。
    表示两个斜杠之间就是正则内容,在结尾斜杠后面可以开启匹配的模式,例如:/^[wx80-xff]{3,15}$/i ,后面的 i 就是忽略大小写匹配。

     

     /i, /s, /x,/u, /U, /A, /D, /S 模式修饰符

    i (PCRE_CASELESS)

    如果设置了这个修饰符, 模式中的字母会进行大小写不敏感匹配.

    m (PCRE_MULTILINE)

    默认情况下, PCRE认为目标字符串是由单行字符组成的(然而实际上它可能会包含多行), "行首"元字符(^)仅匹配字符串的开始位置, 而"行末"元字符($)仅匹配字符串末尾, 或者最后的换行符(除非设置了D修饰符). 这个行为和perl相同. 当这个修饰符设置之后, "行首"和"行末"就会匹配目标字符串中任意换行符之前或之后, 另外, 还分别匹配目标字符串的最开始和最末尾位置. 这等同于perl的/m修饰符. 如果目标字符串 中没有" "字符, 或者模式中没有出现^或$, 设置这个修饰符不产生任何影响.

    s (PCRE_DOTALL)

    如果设置了这个修饰符, 模式中的点号元字符匹配所有字符, 包含换行符. 如果没有这个 修饰符, 点号不匹配换行符. 这个修饰符等同于perl中的/s修饰符. 一个取反字符类比如 [^a]总是匹配换行符, 而不依赖于这个修饰符的设置.

    x (PCRE_EXTENDED)

    如果设置了这个修饰符, 模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略, 并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略. 这个修饰符 等同于perl中的/x修饰符, 使被编译模式中可以包含注释. 注意: 这仅用于数据字符. 空白字符 还是不能在模式的特殊字符序列中出现, 比如序列(?(引入了一个条件子组(译注: 这种语法定义的 特殊字符序列中如果出现空白字符会导致编译错误. 比如( ?(就会导致错误.).

    e (PREG_REPLACE_EVAL)

    如果这个修饰符设置了, preg_replace()在进行了对替换字符串的 后向引用替换之后, 将替换后的字符串作为php代码评估执行(eval函数方式), 并使用执行结果 作为实际参与替换的字符串. 单引号, 双引号, 反斜线()和NULL字符在 后向引用替换时会被用反斜线转义.

    Tip

    请确保replacement参数由合法php代码字符串组成, 否则php将会 在 preg_replace()调用的行上 产生一个解释错误.

    Note: 仅 preg_replace()使用此修饰符, 其他PCRE函数忽略此修饰符.

    A (PCRE_ANCHORED)

    如果设置了这个修饰符, 模式被强制为"锚定"模式, 也就是说约束匹配使其仅从 目标字符串的开始位置搜索. 这个效果同样可以使用适当的模式构造出来, 并且 这也是perl种实现这种模式的唯一途径.

    D (PCRE_DOLLAR_ENDONLY)

    如果这个修饰符被设置, 模式中的元字符美元符号仅仅匹配目标字符串的末尾. 如果这个修饰符 没有设置, 当字符串以一个换行符结尾时, 美元符号还会匹配该换行符(但不会匹配之前的任何换行符). 如果设置了修饰符m, 这个修饰符被忽略. 在perl中没有与此修饰符等同的修饰符.

    S

    当一个模式需要多次使用的时候, 为了得到匹配速度的提升, 值得花费一些时间 对其进行一些额外的分析. 如果设置了这个修饰符, 这个额外的分析就会执行. 当前, 这种对一个模式的分析仅仅适用于非锚定模式的匹配(即没有单独的固定开始字符).

    U (PCRE_UNGREEDY)

    这个修饰符逆转了量词的"贪婪"模式. 使量词默认为非贪婪的, 通过量词后紧跟?的方式可以使其成为贪婪的. 这和perl是不兼容的. 它同样可以使用 模式内修饰符设置(?U)进行设置, 或者在量词后以问号标记其非贪婪(比如.*?).

    Note:

    在非贪婪模式, 通常不能匹配超过 pcre.backtrack_limit的字符.

    X (PCRE_EXTRA)

    这个修饰符打开了PCRE与perl不兼容的附件功能. 模式中的任意反斜线后就ingen一个 没有特殊含义的字符都会导致一个错误, 以此保留这些字符以保证向后兼容性. 默认 情况下, 在perl中, 反斜线紧跟一个没有特殊含义的字符被认为是该字符的原文. 当前没有其他特性由这个修饰符控制.

    J (PCRE_INFO_JCHANGED)

    内部选项设置(?J)修改本地的PCRE_DUPNAMES选项. 允许子组重名. (译注:只能通过内部选项设置, 外部的/J设置会产生错误.)

    u (PCRE8)

    此修正符打开一个与perl不兼容的附加功能. 模式字符串被认为是utf-8的. 这个修饰符 从unix版php 4.1.0或更高, win32版php 4.2.3开始可用. php 4.3.5开始检查模式的utf-8合法性. This modifier turns on additional functionality of PCRE that is incompatible with Perl. Pattern strings are treated as UTF-8. This modifier is available from PHP 4.1.0 or greater on Unix and from PHP 4.2.3 on win32. UTF-8 validity of the pattern is checked since PHP 4.3.5.

     

    1.什么是正则表达式的贪婪与非贪婪匹配

      如:String str="abcaxc";

        Patter p="ab.*c";

      贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab.*c)。

      非贪婪匹配:就是匹配到结果就好,就少的匹配字符。如上面使用模式p匹配字符串str,结果就是匹配到:abc(ab.*c)。

    2.编程中如何区分两种模式

      默认是贪婪模式;在量词后面直接加上一个问号?就是非贪婪模式。

      量词:{m,n}:m到n个

         *:任意多个

         +:一个到多个

         ?:0或一个

    哪些字符需要转义

    :    .  *  ^  &  [  ]  {  }  ?

    捕获分组

    (pattern)是捕获型括号,匹配pattern并捕获结果,自动获取组号
    (?:pattern)是非捕获型括号,匹配pattern,但不捕获匹配结果
    (?<name> pattern)是捕获型括号,匹配pattern并捕获结果,设置name为组名

    使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。
    默认情况下,每个捕获组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

    如果正则表达式中同时存在普通捕获组和命名捕获组,那么捕获组的编号就要特别注意,编号的规则是先对普通捕获组进行编号,再对命名捕获组进行编号。

    为了避免括号太多使编号混乱,也为了避免无用的捕获提高效率,在不需要捕获只需要指定分组的地方就可以使用非捕获型括号。也可以直接根据自己设置的<name>直接快速调用结果,而不用再去数需要的结果在第几个子组了

    $str = '000aaa111';

    //用捕获性分组
    $pattern = '/([a-z]+)(d+)/'; //捕获性分组匹配
    $result_num = preg_match($pattern, $str, $matches);
    print_r($matches);

    Array
    (
        [0] => aaa111
        [1] => aaa
        [2] => 111
    )

    //捕获性分组,设置组名为aa,注意:PHP中命名分组需要加P,js中是不需要的/([a-z]+)(?<aa>d+)/
    $pattern = '/([a-z]+)(?P<aa>d+)/'; //捕获性分组匹配,设置组名为aa
    $result_num = preg_match($pattern, $str, $matches);
    print_r($matches);


    Array
    (
        [0] => aaa111
        [1] => aaa
        [aa] => 111
        [2] => 111
    )

    //非捕获性分组
    $pattern = '/(?:[a-z]+)(?:d+)/'; //非捕获性分组匹配
    $result_num = preg_match($pattern, $str, $matches);
    print_r($matches);

    Array
    (
        [0] => aaa111
    )


    // 捕获的反向引用,用数字代表捕获分组结果的序号
    $str = '000abba111';
    $pattern = '/(w)(w)21/';
    $result_num = preg_match($pattern, $str, $matches);
    print_r($matches);

    Array
    (
        [0] => abba
        [1] => a
        [2] => b
    )

    // 捕获的反向引用,用捕获分组组名
    $str = '000abba111';
    $pattern = '/(w)(?P<group1>w)k<group1>1/';
    $result_num = preg_match($pattern, $str, $matches);
    print_r($matches);

    Array
    (
        [0] => abba
        [1] => a
        [group1] => b
        [2] => b
    )

  • 相关阅读:
    PHP7 网络编程(六)Socket和IO多路复用【待】
    PHP7 网络编程(五)进程间通信【待】
    PHP7 网络编程(四)signal信号【待】
    PHP7 网络编程(三)孤儿进程与僵尸进程
    PHP7 网络编程(二)daemon守护进程
    PHP7 网络编程(一)多进程初探
    为什么要用Rust取代C/C ++重写Python底层?
    Modern Self-Service Data Platforms
    一文读懂量化系统接入及相关平台
    rust asynchronous io:从 mio 到 coroutine
  • 原文地址:https://www.cnblogs.com/lbnnbs/p/8032793.html
Copyright © 2011-2022 走看看