zoukankan      html  css  js  c++  java
  • python中的正则表达式

    1. 正则表达式

        概念:字符串(文本)匹配模式(规则)

    2. 正则表达式的语法规则
        下面是 Python 中正则表达式的一些匹配规则,图片资料来自 CSDN

    3.正则表达式相关注解

    • 数量词的贪婪模式与非贪婪模式

            正则表达式通常用于在文本中查找匹配的字符串。Python 里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式 ”ab” 如果用于查找 ”abbbc”,将找到 ”abbb”。而如果使用非贪婪的数量词 ”ab?”,将找到 ”a”。

           注:我们一般使用非贪婪模式来提取。

    • 反斜杠问题

            与大多数编程语言相同,正则表达式里使用””作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符””,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

            Python 里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用 r”” 表示。同样,匹配一个数字的 ”d” 可以写成 r”d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。

    4. Python Re 模块
        Python 自带了 re 模块,它提供了对正则表达式的支持。主要用到的方法列举如下

    #返回pattern对象
    re.compile(string[,flag])  
    #以下为匹配所用函数
    re.match(pattern, string[, flags])
    re.search(pattern, string[, flags])
    re.split(pattern, string[, maxsplit])
    re.findall(pattern, string[, flags])
    re.finditer(pattern, string[, flags])
    re.sub(pattern, repl, string[, count])
    re.subn(pattern, repl, string[, count])  
    

     其中:pattern为一个匹配模式;

              string为待匹配的字符串;

               参数 flag 是匹配模式,取值可以使用按位或运算符’|’表示同时生效,比如 re.I | re.M。

     re.I(全拼:IGNORECASE): 忽略大小写(括号内是完整写法,下同)
     re.M(全拼:MULTILINE): 多行模式,改变'^'和'$'的行为(参见上图)
     re.S(全拼:DOTALL): 点任意匹配模式,改变'.'的行为
     re.L(全拼:LOCALE): 使预定字符类 w W  B s S 取决于当前区域设定
     re.U(全拼:UNICODE): 使预定字符类 w W  B s S d D 取决于unicode定义的字符属性
     re.X(全拼:VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。
    

    5. Python Re 模块的另一种使用方式
        在上面我们介绍了7个工具方法,例如 match,search 等等,不过调用方式都是 re.match,re.search 的方式,其实还有另外一种调用方式,可以通过 pattern.match,pattern.search 调用,这样调用便不用将 pattern 作为第一个参数传入了,大家想怎样调用皆可。

     match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])
     search(string[, pos[, endpos]]) | re.search(pattern, string[, flags])
     split(string[, maxsplit]) | re.split(pattern, string[, maxsplit])
     findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])
     finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags])
     sub(repl, string[, count]) | re.sub(pattern, repl, string[, count])
     subn(repl, string[, count]) |re.sub(pattern, repl, string[, count])  
    

    参考:http://wiki.jikexueyuan.com/project/python-crawler-guide/regular-expressions.html#7907ec6cc04be6c7f8cf8ac272215946

  • 相关阅读:
    对我影响最大的老师
    介绍自己
    JavaScript 时间特效 显示当前时间
    js 获取函数的所有参数名
    node.js 在函数内获取当前函数
    js 实现二叉排序树
    命令行下mysql的部分操作
    浅析js的函数的按值传递参数
    返回上一页时,保存恢复浏览记录(模拟返回不刷新)
    让mongodb执行js文件
  • 原文地址:https://www.cnblogs.com/zhuxiaohou110908/p/6141152.html
Copyright © 2011-2022 走看看