Python 正则表达式——re模块介绍

Python 正则表达式

re 模块使 Python 语言拥有全部的正则表达式功能，re模块常用方法：

re.match函数

re.match从字符串的起始位置匹配，如果起始位置匹配不成功，则match()就返回none。，如果匹配成功，则可通过group(num) 或 groups()获取匹配结果。

函数语法

re.match(pattern,string,flags=0)

函数参数

pattern : 正则表达式

string : 字符串。

flags : 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写等等

flags模式

re.I 使匹配对大小写不敏感

re.L 做本地化识别（locale-aware）匹配

re.M 多行匹配，影响 ^ 和 $re.S使 . 匹配包括换行在内的所有字符

re.U 根据Unicode字符集解析字符。这个标志影响 w, W, , B.

re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

import re

re_str='The re module gives the Python language full regular expression capabilities.'

match_str=re.match('The r(.+?)', re_str)

# group() 匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

print(match_str.group())

输出 The re

print(match_str.group(1))

输出 e

# 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

print(match_str.groups())

输出 ('e',)

# 其实位置匹配不成功则返回None

match_str=re.match('module',re_str)

print(match_str)

输出 None

# 设置为对大小写不敏感,re.I

match_str=re.match('the r(.+?)',re_str,re.I)

print(match_str.group())

输出 The re

re.search方法

re.search 对整个字符串进行匹配并返回第一个成功的匹配字符串，否则返回None。我刚整理了一套2018最新的0基础入门和进阶教程，无私分享，加Python学习q u n ：227-435-450即可获取，内附：开发工具和安装包，以及系统学习路线图

函数语法

re.search(pattern,string,flags=0)

函数参数

pattern : 正则表达式

string : 字符串

flags : 标志位

search_str=re.search('r(.+?)', re_str)

print(search_str.group())

输出 re

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，而re.search匹配整个字符串，直到找到一个匹配，并返回第一个被匹配到的字符串。

findall

在字符串中匹配所有满足正则表达式的字符串，并返回一个列表，如果没有找到匹配的，则返回空列表。

函数语法

findall(string[,pos[,endpos]])

函数参数

string : 待匹配的字符串。

pos : 可选参数，指定字符串的起始位置，默认为 0。

endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

findall_str=re.findall('i.+?',re_str)

print(findall_str)

# 上面还是使用re.findall的方式，这里推荐使用re.compile生成正则表达式对象，然后按照上面参数说明使用该函数，如下。

pattern=re.compile('i.+?')

pattern.findall(re_str)

输出 ['iv', 'io', 'il', 'it', 'ie']

re.split

split 方法按照能够匹配的子串将字符串分割后返回列表

函数语法

re.split(pattern,string[,maxsplit=0,flags=0])

函数参数

pattern : 正则表达式

string : 字符串

maxsplit : 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

flags : 标志位

split_str=re.split('i.+?',re_str)

print(split_str)

输出 ['The re module g', 'es the Python language full regular express', 'n capab', '', '', 's.']

附呕心沥血整理的正则表达式的语法规则

正则表达式的语法规则