Python学习笔记013_正则表达式

zoukankan html css js c++ java

Python学习笔记013_正则表达式
Python中的正则表达式是通过 re 模块实现的.

通配符 . 表示除了换行以外的任何字符;

编写正则表达式时使用 r're' , r + 正则表达式内容
>>> import re >>> >>> re.search(r'Fish.','I love FishC.com!') <_sre.SRE_Match object; span=(7, 12), match='FishC'> >>> # 如果要匹配 . 本身使用 .
d 表示数字字符
>>> re.search(r'd','I love FishC.com 123 !') <_sre.SRE_Match object; span=(17, 18), match='1'> >>>
[] 匹配到中括号里面的任何一个字符，都算匹配成功
>>> re.search(r'[aeiou]','I love FishC.com !') <_sre.SRE_Match object; span=(3, 4), match='o'> >>>
[]中可以使用 - 表示范围
>>> re.search(r'[a-z]','I love FishC.com !') <_sre.SRE_Match object; span=(2, 3), match='l'> >>>
{m,n} 被匹配的次数区间
>>> re.search(r'ab{2,3}c','aabbccddacc') <_sre.SRE_Match object; span=(1, 5), match='abbc'> >>>
匹配IP
>>> >>> # 匹配IP ，从实践可以看出几个或在一起，第一个匹配上就不再匹配第二个 >>> >>> >>> re.search(r'((25[0-5]|2[0-4]d|1d{2}|[1-9]d|d).){3}(25[0-5]|2[0-4]d|1d{2}|[1-9]d|d)','192.168.1.12') <_sre.SRE_Match object; span=(0, 12), match='192.168.1.12'> >>>
小甲鱼Python3 正则表达式官方文档翻译讲解地址

Python3 如何优雅地使用正则表达式（详解一）http://bbs.fishc.com/thread-57073-1-1.html

Python3 如何优雅地使用正则表达式（详解二）http://bbs.fishc.com/thread-57188-1-1.html

Python3 如何优雅地使用正则表达式（详解三）http://bbs.fishc.com/thread-57207-1-1.html

Python3 如何优雅地使用正则表达式（详解四）http://bbs.fishc.com/thread-57271-1-1.html

Python3 如何优雅地使用正则表达式（详解五）http://bbs.fishc.com/thread-57317-1-1.html

Python3 如何优雅地使用正则表达式（详解六）http://bbs.fishc.com/thread-57362-1-1.html

Python3 如何优雅地使用正则表达式（详解七）http://bbs.fishc.com/thread-57438-1-1.html

Python3 正则表达式特殊符号及用法（详细列表）http://bbs.fishc.com/thread-57691-1-1.html

的作用：

　　1) 将普通字符变成特殊字符， d

2) 解除元字符的特殊功能， .

3) 引用序号对应的子组所匹配的字符串 1-99 ；如果序号以0开头或者是3位数字长度，那么不会被应用于对应的子组，而是用于匹配八进制数字所表示的ASCII码值对应的字符
>>> >>> re.search(r'(FishC)1','I love FishC.com') >>> re.search(r'(FishC)1','I love FishCFishC.com') <_sre.SRE_Match object; span=(7, 17), match='FishCFishC'> >>>
[] 讲解：
　　它是一个字符类，除了几个特殊的字符，其它字符在里面都是普通字符，比如 - 是特殊字符 . 是普通字符

[ ] ,匹配本身，[a-z-], -放在最后表示匹配-自身 [^a-z] 取反（匹配的是除了a-z之外的），如果[a-z^]表示匹配a-z和^本身
>>> re.search(r'.', 'I love FishC.com') <_sre.SRE_Match object; span=(0, 1), match='I'> >>> re.search(r'[.]', 'I love FishC.com') <_sre.SRE_Match object; span=(12, 13), match='.'> >>> >>> # 下面我们使用 findall 函数 >>> #findall函数是返回所有匹配的字符串，并生成列表返回 >>> re.findall(r'[a-z]','FishC.com') ['i', 's', 'h', 'c', 'o', 'm'] >>>
* 等价于 {0,} , + 等价于 {1,} , ? 等价于 {0,1}

建议使用 *,+,? 他们的效率比 {}高

贪婪 & 非贪婪

Python的正则表达式默认是启用了贪婪的模式

贪婪就是只要在符合的条件下尽可能多的匹配
>>> >>> s = '<html><title> I love FishC.com</title></html>' >>> re.search(r'<.+>',s) <_sre.SRE_Match object; span=(0, 45), match='<html><title> I love FishC.com</title></html>'> >>> >>> # 启用非贪婪，在表示重复的元字符后面加问号?，这时的?不代表0或1次 >>> re.search(r'<.+?>',s) <_sre.SRE_Match object; span=(0, 6), match='<html>'> >>>
 匹配一个单词的边界，单词被定义为 Unicode的字母数字或下划线字符

B 与相反
>>> re.search(r'FishC','I love FishC.com FishC_com FishC') <_sre.SRE_Match object; span=(7, 12), match='FishC'> >>> re.findall(r'FishC','I love FishC.com FishC_com FishC') ['FishC', 'FishC'] >>>
s 匹配Unicode中的空白字符（包括 fv）以及其它空白字符

w 匹配任何Unicode中定义的单词字符
>>> >>> re.findall(r'w','我爱你 (I love you!)') ['我', '爱', '你', 'I', 'l', 'o', 'v', 'e', 'y', 'o', 'u'] >>>
编译正则表达式

如果需要重复地使用某个正则表达式，那么可以先将该正则表达式编译成模式对象。

使用 re.compile()方法来编译...
>>> p = re.compile(r'[a-z]') >>> type(p) <class '_sre.SRE_Pattern'> >>> p.search('I love FishC.com') <_sre.SRE_Match object; span=(2, 3), match='l'> >>> p.findall('I love FishC.com') ['l', 'o', 'v', 'e', 'i', 's', 'h', 'c', 'o', 'm'] >>>
编译标志

编译标志让你可以修改正则表达式的工作方式。在re模式下，编译标志均有两个名字：完整名和缩简写

标志　　　　　　　　　　含义

ASCII,A 　　　　　　　　使得转义符号入w,,s和d 只能匹配ASCII字符

DOTALL,S　　　　　　　　　　　使得.匹配任何符号，包括换行符

IGNORECASE,I 　　　　　　　　匹配时不区分大小写

LOCALE,L 　　　　　　　　支持当前的语言（区域）设置

MULTILINE,M　　　　　　　　　多行匹配，影响 ^ $

VERBOSE,X(for 'extended')　　启用详细的正则表达式

search()方法，返回的是一个匹配对象

可以使用匹配对象的相关方法获取匹配的内容，如果里面有子元组，group(n) ，可以获取里面的子元组内容
>>> >>> result = re.search(r' (w+) (w+)','I love FishC.com') >>> type(result) <class '_sre.SRE_Match'> >>> result.group() ' love FishC' >>> result.group(1) 'love' >>> result.group(2) 'FishC' >>> result.start() 1 >>> result.end() 12 >>> result.span() (1, 12) >>>
findall()方法，在没有子组的情况下，返回匹配到的内容组成的列表，如果里面包含了子组，就会把子组内容单独返回，如果有多个子组，作为元组的形式返回各个子组内容

(?...) (?开头的表示为正则表达式的扩展语法

(?:...) , 非捕获组，即该子组匹配的字符串无法从后边获取
#不是我们想要的结果 >>> re.findall(r'((25[0-5]|2[0-4]d|1d{2}|[1-9]d|d).){3}(25[0-5]|2[0-4]d|1d{2}|[1-9]d|d)','192.168.1.12') [('1.', '1', '12')] >>> # 是我么你想要的结果，改为非捕获组 >>> re.findall(r'(?:(?:25[0-5]|2[0-4]d|1d{2}|[1-9]d|d).){3}(?:25[0-5]|2[0-4]d|1d{2}|[1-9]d|d)','192.168.1.12') ['192.168.1.12'] >>>
----------- 赠人玫瑰,手有余香如果本文对您有所帮助,动动手指扫一扫哟么么哒 -----------

未经作者 https://www.cnblogs.com/xin1006/ 梦相随1006 同意，不得擅自转载本文，否则后果自负
查看全文

相关阅读:
一款新型的智能家居WiFi选择方案——SimpleWiFi在无线智能家居中的应用
 智能手机的工业控制应用方案——SimpleWiFi在工业控制领域应用
 一种单片机支持WiFi的应用——SimpleWiFi在单片机中的应用
 TI推出SimpleLink低能耗蓝牙CC2541
SimpleWiFi模块评估板
 Android架构设计和软硬整合完整训练
 CentOS上解压ZIP乱码的解决办法
 更具体的描述JNI
数据市中心全省中国mysql脚本
 几种方法枚举子集

原文地址：https://www.cnblogs.com/xin1006/p/5744633.html