zoukankan      html  css  js  c++  java
  • 正则表达式 Python for Data Analysis 笔记

    import re
    
    # 描述一个或多个空白符的regex是s+
    text = "foo bar	 baz 	qux"
    
    regex = re.compile('s+')
    print(regex.split(text))  #  等于 re.split('s+',text)
    # ['foo', 'bar', 'baz', 'qux']
    
    print(regex.findall(text)) # 匹配到的模式
    #[' ', '	 ', ' 	']
    
    text = """
    Dave dave@google.com
    Steve steve@gmail.com
    Rob rob@gmail.com
    Ryan ryan@yahoo.com
    """
    pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+.[A-Z]{2,4}'
    regex = re.compile(pattern,flags=re.IGNORECASE) # re.IGNORECASE 忽略大小写
    print(regex.findall(text))
    # ['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']
    
    # search返回第一个,只告诉原字符串中的起始和结束位置
    m = regex.search(text)
    print(m) # <re.Match object; span=(6, 21), match='dave@google.com'>
    print(text[m.start():m.end()]) # dave@google.com
    
    # sub 将匹配到的字符串替换为指定字符串
    print(regex.sub("REDACTED",text))
    '''
    Dave REDACTED
    Steve REDACTED
    Rob REDACTED
    Ryan REDACTED
    '''
    
    pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+).([A-Z]{2,4})'
    regex = re.compile(pattern,flags=re.IGNORECASE) # re.IGNORECASE 忽略大小写
    m = regex.match('wesm@bright.com')
    print(m.groups()) # ('wesm', 'bright', 'com')
    print(regex.findall(text))
    '''
    [('dave', 'google', 'com'), 
    ('steve', 'gmail', 'com'), 
    ('rob', 'gmail', 'com'), 
    ('ryan', 'yahoo', 'com')]
    '''
    # sub可以通过1、2之类的特殊符号访问各匹配项中的分组
    print(regex.sub(r'Username:1, Domain:2, Suffix:3',text))
    '''
    Dave Username:dave, Domain:google, Suffix:com
    Steve Username:steve, Domain:gmail, Suffix:com
    Rob Username:rob, Domain:gmail, Suffix:com
    Ryan Username:ryan, Domain:yahoo, Suffix:com
    '''
    
    # 这种正则表达式所产生的对象可以得到一个简单易用的带有分组名称的字典
    pattern = r"""
    (?P<username>[A-Z0-9._%+-]+)
    @
    (?P<Domain>[A-Z0-9.-]+)
    .
    (?P<Suffix>[A-Z]{2,4})
    """
    regex = re.compile(pattern,flags=re.IGNORECASE|re.VERBOSE) # re.IGNORECASE 忽略大小写
    m = regex.match('wesm@bright.com')
    print(m.groupdict())
    '''
    {'username': 'wesm', 'Domain': 'bright', 'Suffix': 'com'}
    '''
  • 相关阅读:
    操作系统作业调度-操作系统
    评论--软件工程
    实验二 作业调度模拟程序
    复利计算评价博客
    构建之法(第四章读后感)
    复利计算--结对项目<04-11-2016> 1.0.0 lastest 阶段性完工~
    实验一 命令解释程序的编写
    构建之法(前三章读后感)
    实验0 了解和熟悉操作系统(操作系统)
    Scrum项目4.0
  • 原文地址:https://www.cnblogs.com/nicole-zhang/p/15204766.html
Copyright © 2011-2022 走看看