zoukankan      html  css  js  c++  java
  • Python3正则匹配re.split,re.finditer及re.findall函数用法详解

    这篇文章主要介绍了Python3正则匹配re.split,re.finditer及re.findall函数用法,结合实例形式详细分析了正则匹配re.split,re.finditer及re.findall函数的概念、参数、用法及操作注意事项,需要的朋友可以参考下

     

    本文实例讲述了Python3正则匹配re.split,re.finditer及re.findall函数用法。分享给大家供大家参考,具体如下:

    re.split re.finditer re.findall

    @(python3)

    官方 re 模块说明文档

    re.compile() 函数

    编译正则表达式模式,返回一个对象。可以把常用的正则表达式编译成正则表达式对象,方便后续调用及提高效率。

    re 模块最离不开的就是 re.compile 函数。其他函数都依赖于 compile 创建的 正则表达式对象

    re.compile(pattern, flags=0)

    • pattern 指定编译时的表达式字符串
    • flags 编译标志位,用来修改正则表达式的匹配方式。支持 re.L|re.M 同时匹配

    flags 标志位参数

    re.I(re.IGNORECASE)
    使匹配对大小写不敏感

    re.L(re.LOCAL)
    做本地化识别(locale-aware)匹配

    re.M(re.MULTILINE)
    多行匹配,影响 ^ 和 $

    re.S(re.DOTALL)
    使 . 匹配包括换行在内的所有字符

    re.U(re.UNICODE)
    根据Unicode字符集解析字符。这个标志影响 w, W, , B.

    re.X(re.VERBOSE)
    该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

    示例:

    1
    2
    3
    4
    5
    6
    7
    import re
    content = 'Citizen wang , always fall in love with neighbour,WANG'
    rr = re.compile(r'wanw', re.I) # 不区分大小写
    print(type(rr))
    a = rr.findall(content)
    print(type(a))
    print(a)

    findall 返回的是一个 list 对象

    <class '_sre.SRE_Pattern'>
    <class 'list'>
    ['wang', 'WANG']

    re.split 函数

    按照指定的 pattern 格式,分割 string 字符串,返回一个分割后的列表。

    re.split(pattern, string, maxsplit=0, flags=0)

    • pattern compile 生成的正则表达式对象,或者自定义也可
    • string 要匹配的字符串
    • maxsplit 指定最大分割次数,不指定将全部分割
    1
    2
    3
    4
    5
    6
    7
    8
    9
    import re
    str = 'say hello world! hello python'
    str_nm = 'one1two2three3four4'
    pattern = re.compile(r'(?P<space>s)') # 创建一个匹配空格的正则表达式对象
    pattern_nm = re.compile(r'(?P<space>d+)') # 创建一个匹配空格的正则表达式对象
    match = re.split(pattern, str)
    match_nm = re.split(pattern_nm, str_nm, maxsplit=1)
    print(match)
    print(match_nm)

    结果:

    ['say', ' ', 'hello', ' ', 'world!', ' ', 'hello', ' ', 'python']
    ['one', '1', 'two2three3four4']

    re.findall() 方法

    返回一个包含所有匹配到的字符串的列表。

    • pattern 匹配模式,由 re.compile 获得
    • string 需要匹配的字符串
    1
    2
    3
    4
    5
    import re
    str = 'say hello world! hello python'
    pattern = re.compile(r'(?P<first>hw)(?P<symbol>l+)(?P<last>os)') # 分组,0 组是整个 world!, 1组 or,2组 ld!
    match = re.findall(pattern, str)
    print(match)

    结果

    [('he', 'll', 'o '), ('he', 'll', 'o ')]

    re.finditer 、re.findall

    re.finditer(pattern, string[, flags=0])
    re.findall(pattern, string[, flags=0])

    • pattern compile 生成的正则表达式对象,或者自定义也可
    • string 要匹配的字符串

    findall 返回一个包含所有匹配到的字符的列表,列表类以元组的形式存在。

    finditer 返回一个可迭代对象。

    示例一:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    pattern = re.compile(r'd+@w+.com') #通过 re.compile 获得一个正则表达式对象
    result_finditer = re.finditer(pattern, content)
    print(type(result_finditer))
    print(result_finditer) # finditer 得到的结果是个可迭代对象
    for i in result_finditer: # i 本身也是可迭代对象,所以下面要使用 i.group()
     print(i.group())
    result_findall = re.findall(pattern, content)
    print(type(result_findall)) # findall 得到的是一个列表
    print(result_findall)
    for p in result_finditer:
     print(p)

    输出结果:

    <class 'callable_iterator'>
    <callable_iterator object at 0x10545ec88>
    123456@163.com
    234567@163.com
    345678@163.com
    <class 'list'>
    ['123456@163.com', '234567@163.com', '345678@163.com']

    由结果可知:finditer 得到的是可迭代对象,finfdall 得到的是一个列表。

    示例二:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    import re
    content = '''email:123456@163.com
    email:234567@163.com
    email:345678@163.com
    '''
    pattern = re.compile(r'(?P<number>d+)@(?P<mail_type>w+).com')
    result_finditer = re.finditer(pattern, content)
    print(type(result_finditer))
    print(result_finditer)
    iter_dict = {} # 把最后得到的结果
    for i in result_finditer:
     print('邮箱号码是:', i.group(1),'邮箱类型是:',i.group(2))
     number = i.group(1)
     mail_type = i.group(2)
     iter_dict.setdefault(number, mail_type) # 使用 dict.setdefault 创建了一个字典
    print(iter_dict)
    print('+++++++++++++++++++++++++++++++')
    result_findall = re.findall(pattern, content)
    print(result_findall)
    print(type(result_findall))

    输出结果:

    <class 'callable_iterator'>
    <callable_iterator object at 0x104c5cbe0>
    邮箱号码是: 123456 邮箱类型是: 163
    邮箱号码是: 234567 邮箱类型是: 163
    邮箱号码是: 345678 邮箱类型是: 163
    {'123456': '163', '234567': '163', '345678': '163'}
    +++++++++++++++++++++++++++++++
    [('123456', '163'), ('234567', '163'), ('345678', '163')]
    <class 'list'>

    finditer 得到的可迭代对象 i,也可以使用 lastindex,lastgroup 方法。

    print('lastgroup 最后一个被捕获的分组的名字',i.lastgroup)

    findall 当正则没有分组,返回就是正则匹配。

    1
    2
    re.findall(r"d+@w+.com", content)
    ['2345678@163.com', '2345678@163.com', '345678@163.com']

    有一个分组返回的是分组的匹配

    1
    2
    re.findall(r"(d+)@w+.com", content)
    ['2345678', '2345678', '345678']

    多个分组时,将结果作为 元组,一并存入到 列表中。

    1
    2
    re.findall(r"(d+)@(w+).com", content)
    [('2345678', '163'), ('2345678', '163'), ('345678', '163')]

    PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

    JavaScript正则表达式在线测试工具:
    http://tools.jb51.net/regex/javascript

    正则表达式在线生成工具:
    http://tools.jb51.net/regex/create_reg

    原文链接:https://blog.csdn.net/cityzenoldwang/article/details/78398406

  • 相关阅读:
    nyoj 69 数的长度
    hdu 1437 天气情况【概率DP】
    hdu 2058 The sum problem
    hdu 1491 Octorber 21st
    Aras学习笔记(16)- Aras官方项目Tree Grid View Sample原理介绍
    Aras学习笔记 (15)
    Aras学习笔记 (14) DotNet操作Aras常用代码代码汇总(陆续更新中)
    Aras学习笔记 (13) Javascript端常用代码代码汇总(陆续更新中)
    Aras学习笔记 (12) C#代码读取域用户列表(转,翻译)
    Aras学习笔记 (11) Aras集成AD账号
  • 原文地址:https://www.cnblogs.com/mashuqi/p/10411605.html
Copyright © 2011-2022 走看看