zoukankan      html  css  js  c++  java
  • Python标准库01 正则表达式(re包)

    python正则表达式基础

    简单介绍

    正则表达式并不是python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供正则表达式的语言里,正则表达式的语法是一样的,区别只在于不同的贬称语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的的部分。

    正则表达式进行匹配的流程

    正则表达式引擎“编译”<正则表达式>得到正则表达式对象(正则表达式引擎编译表达式字符串得到的对象,包含应如何进行匹配的信息),正则表达式对象需要匹配的文本进行"匹配",生成匹配结果(正则表达式对象对文本进行匹配后得到的结果,包含了这次成功匹配的信息,如匹配到的字符串、分组以及在文本中的索引)。

    匹配大概过程

    正则表达式的大致匹配过程是:一次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有些不同,但也是很好理解的,多看实例多使用几次就能明白。

    python支持的正则表达式元字符和语法

    语法         说明                                                表达实例        完整匹配的字符串
    一般字符     匹配自身                                            abc             abc
    .            匹配任意一个字符("
    ")                          a.c             abc
                转义字符, 使后一个字符改变原来的意思                a.c            a.c
    [...]        字符集(字符类)对应位置可以是字符集中任意一个字符    a[bcd]e         abe  ace  ade
    a|b          字符a或字符b   <-等价于-> [ab]
    [0-9]        数字0-9其中一个字符
    [a-z]        小写字母a-z其中一个字符
    [A-Z]        大写字母A-Z其中一个字符
    [^m]         不是字符m
    ---------------------------------------------------------------------------------------------------
    d           数字:[0-9]                                         adc            a1c
    D           非数字:[^d]                                       aDc            abc
    s           空白字符:[<空格>trnfv]                        asc            a c
    S           非空白字符:[^s]                                   aSc            abc
    w           单词字符:[A-Za-z0-9]                               awc            abc
    W           非单词字符:[^w]                                   aWc            a c
    -------------------------数量词(重复)------------------------------------------------------
    *            匹配前一个字符0次或无限次(>=0)                      abc*            ab  abc abcc abccc ...
    +            匹配前一个字符1次或无限次(>=1)                      abc+            abc abcc abccc ...
    ?            匹配前一个字符0次或1abc?            ab abc
    {m}          匹配前一个字符mab{2}c          abbc
    {m,n}        匹配前一个字符mn(m<= >=n); mn可以省略         ab{1,2}c        abc abbc
    *? +? ?? {m,n}?  使* + ? {m,n}变成非贪婪模式
    ------------------------------边界匹配------------------------------------------------------
    ^            匹配字符串开头(在多行模式中匹配每一行的开头)
    $            匹配字符串末尾(在多行模式中匹配每一行的末尾)
    A           仅匹配字符串开头                                    这几种匹配模式有点疑惑??????
    Z           仅匹配字符串末尾
    b           匹配wW之间
    B           [^b]
    ------------------------------逻辑、分组------------------------------------------------------
    |            |代表左右表达式任意匹配一个(类似短路或,先匹配左边)  abc|def          abc def
    (...)        被括起来的表达式将作为分组, 从表达式左边开始每遇到  (abc){2}         abcabc
                 一个分组的左括号'(',编号+1;分组表达式作为一个整体,  a(123|456)c      a123c a456c
                 可以后接数量词.表达式中的|仅在该组中有效
    (?P<name>...)分组, 除了原有的编号外再指定一个额外的别名          (?P<id>abc){2}   abcabc
    <number>    引用编号为<number>的分组匹配到的字符串              (d)abc1        1abc1 5abc5
    (?P=name)    引用别名为<name>的分组匹配到的字符串                (?P<id>d)abc(?P=id) 1abc1 5abc5
    ------------------------------特殊构造(不作为分组)---------------------------------------------------
    (?:...)      (...)的不分组版本, 用于使用'|'或后接数量词          (?:abc){2}        abcabc
    (?iLmsux)    iLmsux的每个字符代表一个匹配模式, 只能用在正则的开头(?i)abc           Abc
    (?#...)      #后的内容作为注释被忽略                             abc(?#comment)123 abc123
    (?=...)      之后的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容  a(?=d)  后面是数字的a
    (?!...)      之后的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容a(?!d)  后面不是数字的a
    (?<=...)     之前的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容(?<=d)a   前面不是数字的a
    (?<!...)     之前的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容(?<!d)a 前面不是数字的a

    参考:

    http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

    http://www.runoob.com/python/python-reg-expressions.html

    http://www.cnblogs.com/PythonHome/archive/2011/11/19/2255459.html

    http://www.cnblogs.com/kaituorensheng/p/3489492.html

  • 相关阅读:
    线程练习-网络买票
    永久储存信息(已完善)
    Linux命令
    oracle(3)
    小结
    java开发中中文编码问题
    double保留两位小数
    oracle(2)
    javadate相关
    分布式
  • 原文地址:https://www.cnblogs.com/liwei0526vip/p/5096510.html
Copyright © 2011-2022 走看看