zoukankan      html  css  js  c++  java
  • 【python】正则表达式

    参考资料:http://deerchao.net/tutorials/regex/regex.htm

    1、正则表达式基础

    2、python 正则表达式

    1、正则表达式基础

    元字符:

    image

    其他语法:

        (1)字符转义

               如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此,你应该使用.和*。当然,要查找本身,你也得用\.

    例如C:\Windows 匹配C:Windows

       (2)分组——用小括号来指定子表达式(也叫做分组)

               例如:(d{1,3}.){3}d{1,3}是一个简单的IP地址匹配表达式,d{1,3}匹配1到3位的数字,(d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(d{1,3})。不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。选择,字符类来描述一个正确的IP地址为:((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)。

    image

        (3)贪婪与懒惰

                当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

               有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

    image

    2、python正则表达式

    image

    实例:1:(search和match与sub)

    # encoding:utf-8
    '''
    Created on 2014-6-18
    
    @author: Administrator
    '''
    import re
    
    class Regex(object):
        def regex_match(self):
            pattern = "w+@w+.*(w+).com"  # 匹配邮箱
            mt = re.match(pattern, "luosongchao@xxx.yyy.xadad.com")
            if mt:
                print mt.group()
                print mt.groups()
            else:
                print "no match"
            
        def regex_search(self):
            mt = re.search(r"Bl(.?){2}", "hello world!")
            if mt:
                print mt.group()
            else:
                print "no match"
                
        def regex_sub(self):
            ret = re.sub("X", "Mr Smith", "attention:X
    
    Dear X,
    ")
            print ret
            ret = re.subn("X", "Mr Smith", "attention:X
    
    Dear X,
    ")
            print ret
            
    if __name__ == "__main__":
        regex = Regex()
        regex.regex_match()
        regex.regex_search()
        regex.regex_sub()

    结果:

    image

    结论:

           match:从字符串开头开始对模式进行匹配,成功返回匹配对象,否则返回None

           search:在字符串string中搜索正则表达式模式pattern第一次出现的字符串

           sub:把字符串中匹配正则表达式pattern的地方替换为新字符串

     

    实例2:(split)

    # encoding:utf-8
    '''
    Created on 2014-6-18
    
    @author: Administrator
    '''
    
    import re
    class RegexLs(object):
        """使用正则表达式解析Unix命令ls -al的结果"""
        
        def __init__(self, path):
            try:
                self.fl = open(path)
            except Exception :
                print "文件" + path + "打开出错!"
    
        def analy_file(self):
            pattern = "s+|	"
            for line in self.fl:
                print re.split(pattern, line.strip())
    
        def __del__(self):
            self.fl.close()
    
    
    if __name__ == "__main__":
        path = "ls.txt"
        regex_ls = RegexLs(path)
        regex_ls.analy_file()

    其中Unix命令:ls –al    生成结果格式:

    image

    结论:

          split,根据正则表达式pattern中的分隔符把字符串string分隔为一个列表

    实例3:(惰性匹配)

    # encoding:utf-8
    '''
    Created on 2014-6-18
    
    @author: Administrator
    '''
    from random import randint, choice
    from sys import maxint
    from time import ctime
    from string import lowercase
    import re
    
    class RegexExample(object):
        def __init__(self):
            self.doms = ('com', 'edu', 'net', 'org', 'gov')
            self.format_list = []
            
        def get_string(self):
            for i in range(randint(5, 10)):
                dtint = randint(0, maxint - 1)
                dtstr = ctime(dtint)
                shorter = randint(4, 7)
                
                em = ""
                for j in range(shorter):
                    em += choice(lowercase)
                
                longer = randint(shorter, 12)
                dn = ""
                for j in range(longer):
                    dn += choice(lowercase)
                
                string = "%s::%s@%s.%s::%d-%d-%d" % (dtstr, em, dn, choice(self.doms), dtint, shorter, longer)
    #             print string
                self.format_list.append(string)
                
        def get_last(self):
            pattern = ".+?(d+-d+-d+)"
            for elem in self.format_list:
                print elem
                ps = re.search(pattern, elem)
                if ps:
                    print ps.group(1)
                
    if __name__ == "__main__":
        example = RegexExample()
        example.get_string()
        
        print "#"*40
        
        example.get_last()

    执行结果:

    image

    结论:

          get_last()函数使用的pattern=”.*?(d-d-d)”执行的是惰性匹配,其中(d-d-d)为分组

  • 相关阅读:
    我已经发表的文章:2,《上帝的小蚂蚁》(未经作者本人同意,不得转载!)
    【windows环境下】RabbitMq的安装和监控插件安装
    Apache FtpServer扩展【动手实现自己的业务】
    我的博客开始之旅
    curl和wget的区别和使用 wanglf
    ceph集群部署 wanglf
    ansible实现SSH配置免密互信 wanglf
    kubernetes(k8s) helm安装kafka、zookeeper wanglf
    django项目中使用KindEditor富文本编辑器 wanglf
    下一代网页:当HTML5取代Flash
  • 原文地址:https://www.cnblogs.com/luosongchao/p/3797793.html
Copyright © 2011-2022 走看看