zoukankan      html  css  js  c++  java
  • Python re 模块

    RE模块

    Jamie Zawinski said:
    Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
    Now they have two problem!

    当人们遇到一个问题,想到用正则表达式解决时。他们的问题马上就变成了两个问题
    调侃正则表达式不好学。

    功能

    1. python支持正则表达式是通过re模块
    2. Regular Expressions 也叫 REs,regex,regexp,regex patterns。看见这些名字就知道是正则表达式
    3. Regex本质是一个小型的,高度专业的编程语言。很多高级语言都嵌入了Regex,Python只是通过re模块来让python可以支持Regex。
    4. re模块提供Perl风格的正则表达式模式。
    5. For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
    6. 正则表达式不是全能的,也有一些处理不了的字符任务。
    7. 正则表达式是对某种字符串的表示。一个字符串符合一个正则表达式规则,我们就说这个字符串匹配该正则表达式。(注意:区分部分匹配全匹配,都叫匹配,根据具体场景上下文环境理解匹配是部分还是全匹配。)
    8. 匹配过后就可以做很多事情了。正则常用于处理:
      • 替换:将字符串中匹配到正则表达式的进行替换
      • 截取:将匹配的从字符串截取掉。根据start,end索引截取
      • 匹配逻辑判断:匹配search ,match等
      • 计数:使用finditer迭代记性迭代计数,其它方式也行
      • 过滤:通过匹配结果bool进行过滤
      • 包含:search
      • 全匹配:fullmatch
      • 分隔:split

    注意:

    1. Python中的字符串是支持转义符的,所以要特别注意正则表达式在python中也是用字符串标识而正则表达式也是支持转移字符的,所以避免python字符串将转移解析,就需要给python指示出正则表达式字符串中的转移字符是正则用的,而不是python字符串所用,就需要这样做r'partten',这样正则表达式中的字符都是没有特殊功能。如:r' '是两个字符,' '是一个字符,代表换行符。
    2. 正则和需要匹配的字符串,都是要Unicode string 或 8-bit string。两种是不能混合使用。

    正则表达式语法

    • 表达式串表达式
    • 复杂表达式可以由简单表达式构成
    • 正则表达式的贪婪greedy和非贪婪non-greedy
      • 是说'+' '*' '?'等多态数量指定的是贪婪匹配,会去匹配尽可能大的范围。
      • 给这三个加上'?',就是非贪婪,回去匹配尽可能小的范围。
    • 正则表达式包含特殊字符和普通字符
      • 普通字符
        • 什么'A' 'B' 'c' 'd';什么'last' 'next' 'hello' 由普通字符串连起来的。
      • 特殊字符
        • 像 '.' '()' '|' 等
    special character means comments
    '.' 点号,代表所有字符除了newline换行符 如果设置了DOTALL flag标识,那就会包含newline
    '^' 代表字符串的开始,The start of the string In MULTLINE mode在多行模式也匹配每个newline的结尾处
    '$' 匹配the end of the string or just befor the newline at the end of the string In MULTILINE mode also matches before a newline.
    '' 不匹配任何字符串,匹配单词的开头或结尾 如r'foo' 能匹配 'foo','foo.','(foo)','bar foo bar',但是不能匹配'foobar'
    'B' 不匹配任何字符串,是的反义
    '*' 匹配 0个或 多次重复 这个符号前面的RE 贪婪
    '+' 匹配 1个或 多次重复 这个符号前面的RE 贪婪,注意是前面的一个RE,一个普通字符就是一个RE不是所有,是最小单位的一个RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
    '?' 匹配 0个或 1次重复 这个符号前面的RE 贪婪
    '*?,??,+?' 禁掉*,?,+的贪婪,取他们能匹配的最小范围 非贪婪
    '{m}' 指定数量重复 这个符号前面的RE 非贪婪
    '{m,n}' 指定m到n数量重复 这个符号前面的RE 贪婪 ,n如果不指定的话,至少m个重复RE
    '{m,n}?' 指定m到n数量重复 这个符号前面的RE,但是至匹配最小数量 非贪婪
    '' 转义特殊字符 即然特殊字符表示其字面义
    '[]' Used to indicate a set of characters 特殊字符在[]中会没有特殊意义;但是符号在[]中如果是第一个字符,那么是有意义的,这里不是表示字符串的开头,而是取反取补集 .并且在[]除了开头的^恶化]符号是有各自的意义
    '|' 两边是RE,匹配左边或者右边,或关系 非贪婪,从左到右匹配
    'w' 匹配字母+数字+下划线
    'W' 匹配非字母数字下划线,w的补集
    'd' 匹配任意数字 等价于[0-9]
    'D' 匹配任意非数字
    's' 匹配任意空白字符 等价[ f]
    ' um' 数字表示引用的分组
    '(?P=name) name表示引用的分组名

    等等等等。。。。

    分组

    使用分组可以将分组中匹配的子串提取出来。这就是分组最大的好处了吧。这样的话如果只是想提取某个字符串,但是又要根据其上下文才能确定这个匹配。那么就使用分组再将上下文内容写到partten中,最后从math对象中可以得到分组中的内容。
    所以正则分组和Python re模块的match对象是一起工作的。

    如下,如果想提取for 后面的城市,这里例子是Beijing,for后面城市是可变的,那么要提取就需要匹配城市前后的for和,号,要得到城市就将城市的放到分组中:

    <title>
    Conditions for Beijing, Beijing, CN at 09:00 AM CST
    </title>
    

    提取代码:

    import re
    xml_str = '''<title>
    Conditions for Beijing, Beijing, CN at 09:00 AM CST
    </title>'''
    
    prog = re.compile(r'Conditions fors(?P<city>w+),')  # 将regex编译
    city_match = prog.search(xml_str)  # 得到match对象
    city_name = city_match.group('city')  # 从match对象中获取组中的匹配字符串
    print(city_name)
    

    运行结果:

    Beijing

    上面的例子分组使用了命名分组表示法,也可以直接用()表示,这样在后面match的group调用时就会使用分组偏移量来作为参数了,上面的代码使用非命名分组表示,代码可以改为:

    import re
    xml_str = '''<title>
    Conditions for Beijing, Beijing, CN at 09:00 AM CST
    </title>'''
    
    prog = re.compile(r'Conditions fors(w+),')  # 这里使用了普通分组表示
    city_match = prog.search(xml_str)  # 得到match对象
    city_name = city_match.group(1)  # 使用分组的偏移量来作为参数,这里是1
    print(city_name)
    
    

    总结一下分组

    • 分组可以表示使用命名分组和非命名分组(普通分组)
      • 普通表示:(pattern) 命名表示:(?P< groupname>partten)
    • 分组还可以引用
      • 普通引用: um 命名引用: (?P=groupname)
    • match对命名分组的访问,使用非命名方式访问也是支持的。

    re 模块提供的API

    • re.compile(partten,flag) 返回一个regex对象,regex对象支持很多模块级的函数相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一个regular expression 对象
    • re.search(partten,string,flag) 扫描字符串,找到第一个符合正则表达式匹配的字符,匹配到并返回match对象,一个都没匹配到返回None。
    • re.match(partten,string,flag) 从字符串开始匹配partten,如果匹配到返回match对象,否则返回None。
    • re.split(partten,string,maxsplite=0,flag=0) 将string中所有匹配的上partten的作为字符串的分隔符进行分隔字符串。如果一个没匹配上返回列表中只有string一个字符串。如果匹配上就分隔返回分隔后元素组成的列表。maxsplit指定字符串最多可以分割的次数。还要特别注意,如果partten中是用了分组,那么分组将出现在最后分隔列表中,每个元素之间。就是将分组中匹配到的也添加到列表中。
    • re.findall(partten,string,flag=0) 返回一个列表,将字符串总所有匹配上模式的都出道列表中。
    • re.sub(pattern, repl, string , count=0, flags=0) 将 string中匹配到partten的替换为repl。count指定匹配多少个。返回替换后的字符串。repl也可以是一个函数,接受一个字符串,返回一个字符串。函数是非常有用的,可以添加逻辑判断。这个很有用的!!!
    • re.escape(str) 将str中处在在正则表达式中有特殊意义的字符进行转移。返回转移后的字符串。
    • re.fullmatch(partten, string, flags=0) 整个字符串都匹配partten,就返回re对象,否则返回None。
    • re.finditer(partten, string, flags=0) 返回一个生成器,生成器每次next()返回的是一个match对象,这个match对象是依次正则匹配上的。

    正则表达式对象 Regular Expression Object

    正则表达式对象:

    • 就是通过re.compile(partte)返回的对象
    • 如果一个正则表达式在代码中多次被使用,那么最好将其编译成正则对象,这样代码运行效率更快。
    • 正则对象拥有re模块所有的的函数对应的方法
    • 这这表达式还有属性prog.groups 是正则对象包含的分组数
    • prog.groupindex 是命名分组名和组id的一个字典

    正则匹配后的 Match Object

    匹配对象的API:

    • re模块search,match,fullmatch以及finditer的生成器返回的,这些将匹配上的都作为一个match对象返回
    • match对象存储了匹配上的字符串。并且如果正则表达式有分组的话,那么还会按照分组进行逻辑上的分组存储,提供group()方法进行分组访问。
    • match.group([group1,...]) 参数为组的偏移值,第一个组那么是1,第二个组那么是2,依次类推。如果不带参数或者参数偏移为0,那么返回整个正则匹配的字符串。如果是单个组的偏移量,那么就是某个组的字符串。如果是多个组的偏移,那么就将多个组匹配的字符串组成的元组返回。
    • match.group() 如果正则表达式是命名组,那么也支持名字访问组值。也支持索引。
    • 如果group是贪婪的,那么已最后一次匹配为该组的值。
    • match.groups() 返回所有的组所构成的元组,这个方法的参数是默认值,用在某个主没匹配上任何字符。
    • match.groupdict() 返回命名组字典,也是可以传入一个默认值参数,当某个组没有匹配上。
    • 注意group()返回匹配的字符串,就算没有分组。而groups()必须有分组才会有值,不然是空元组,groupdict()返回空字典
    • match.start() 匹配上字符串的开始位置
    • match.end() 匹配上字符串的结束位置
    • match.span() 返回起始位置构成的元组

    re模块使用例子

    参考官方手册re模块例子

    • 手机格式 1d{10}
    • 邮箱格式 r"^w+(.?w+)@(w+.)w+$"
    • 带名字邮箱地址格式
    • IPv4地址

    注意

    • 正则表达式,在有可变长的贪婪配置时,一定要考虑好后面的匹配会影响可变长表达式所能匹配到的范围。
    • 正则表达式中反斜杠字符的表示。由于字符要进行转义,转移的字符又要进行转义,所以转义一个反斜杠需要四个反斜杠或者r"" r加三个反斜杠。
  • 相关阅读:
    新东西
    Xcode6新特性
    下载模拟器
    iOS定位和地图
    iOS,作死集锦
    ThreadLocal源码解析
    JSON Web令牌(JWT)介绍与使用
    docker已运行容器里的时区修改
    Docker图形界面管理
    ZooKeeper开机启动的俩种方式
  • 原文地址:https://www.cnblogs.com/ZJiQi/p/8905011.html
Copyright © 2011-2022 走看看