zoukankan html css js c++ java

【python】正则表达式

参考资料：http://deerchao.net/tutorials/regex/regex.htm

1、正则表达式基础

2、python 正则表达式

1、正则表达式基础

元字符：

其他语法：

（1）字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此，你应该使用.和*。当然，要查找本身，你也得用\.

例如C:\Windows 匹配C:Windows

（2）分组——用小括号来指定子表达式(也叫做分组)

例如：(d{1,3}.){3}d{1,3}是一个简单的IP地址匹配表达式，d{1,3}匹配1到3位的数字，(d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(d{1,3})。不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。选择，字符类来描述一个正确的IP地址为：((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)。

（3）贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

2、python正则表达式

实例:1：（search和match与sub）

# encoding:utf-8
'''
Created on 2014-6-18

@author: Administrator
'''
import re

class Regex(object):
    def regex_match(self):
        pattern = "w+@w+.*(w+).com"  # 匹配邮箱
        mt = re.match(pattern, "luosongchao@xxx.yyy.xadad.com")
        if mt:
            print mt.group()
            print mt.groups()
        else:
            print "no match"
        
    def regex_search(self):
        mt = re.search(r"Bl(.?){2}", "hello world!")
        if mt:
            print mt.group()
        else:
            print "no match"
            
    def regex_sub(self):
        ret = re.sub("X", "Mr Smith", "attention:X

Dear X,
")
        print ret
        ret = re.subn("X", "Mr Smith", "attention:X

Dear X,
")
        print ret
        
if __name__ == "__main__":
    regex = Regex()
    regex.regex_match()
    regex.regex_search()
    regex.regex_sub()

结果：

结论：

match：从字符串开头开始对模式进行匹配，成功返回匹配对象，否则返回None

search：在字符串string中搜索正则表达式模式pattern第一次出现的字符串

sub：把字符串中匹配正则表达式pattern的地方替换为新字符串

实例2：（split）

# encoding:utf-8
'''
Created on 2014-6-18

@author: Administrator
'''

import re
class RegexLs(object):
    """使用正则表达式解析Unix命令ls -al的结果"""
    
    def __init__(self, path):
        try:
            self.fl = open(path)
        except Exception :
            print "文件" + path + "打开出错！"

    def analy_file(self):
        pattern = "s+|	"
        for line in self.fl:
            print re.split(pattern, line.strip())

    def __del__(self):
        self.fl.close()


if __name__ == "__main__":
    path = "ls.txt"
    regex_ls = RegexLs(path)
    regex_ls.analy_file()

其中Unix命令：ls –al 生成结果格式：

结论：

split，根据正则表达式pattern中的分隔符把字符串string分隔为一个列表

实例3：（惰性匹配）

# encoding:utf-8
'''
Created on 2014-6-18

@author: Administrator
'''
from random import randint, choice
from sys import maxint
from time import ctime
from string import lowercase
import re

class RegexExample(object):
    def __init__(self):
        self.doms = ('com', 'edu', 'net', 'org', 'gov')
        self.format_list = []
        
    def get_string(self):
        for i in range(randint(5, 10)):
            dtint = randint(0, maxint - 1)
            dtstr = ctime(dtint)
            shorter = randint(4, 7)
            
            em = ""
            for j in range(shorter):
                em += choice(lowercase)
            
            longer = randint(shorter, 12)
            dn = ""
            for j in range(longer):
                dn += choice(lowercase)
            
            string = "%s::%s@%s.%s::%d-%d-%d" % (dtstr, em, dn, choice(self.doms), dtint, shorter, longer)
#             print string
            self.format_list.append(string)
            
    def get_last(self):
        pattern = ".+?(d+-d+-d+)"
        for elem in self.format_list:
            print elem
            ps = re.search(pattern, elem)
            if ps:
                print ps.group(1)
            
if __name__ == "__main__":
    example = RegexExample()
    example.get_string()
    
    print "#"*40
    
    example.get_last()

执行结果：

结论：

get_last()函数使用的pattern=”.*?（d-d-d）”执行的是惰性匹配，其中（d-d-d)为分组

查看全文

相关阅读:
不是结束，而是刚刚开始
 第七次作业
 用类做封装
 用户故事
 团队编程--MP3播放器
 结对编程作业
 四则运算
 四、小电视自动抽奖
 三、wss连接B站弹幕
 一、基础设计

原文地址：https://www.cnblogs.com/luosongchao/p/3797793.html

热门文章
博客之感想
 结队编程
 第一次打程序
 对GIT的认识
 一开始我是拒绝的
 我的总结
 用例图
 1-10的计算器
 对git的认识
 我的第一篇博客