正则表达式小记

zoukankan html css js c++ java

正则表达式小记
动机：

　　1、文本处理成为计算机常见的工作之一。

　　2、对文本内容的搜索、定位、提取是逻辑比较复杂的工作

　　3、为了快捷方便的解决上诉问题，产生了正则表达式技术。

定义：

　　文本的高级匹配模式，提供搜索，替换等功能。其本质是由一系列字符和特殊符号构成的字符串，这个字符串既正则表达式。

目标：应用

　　1、熟练掌握正则表达式符号

　　2、知道什么是正则表达式，如何

　　3、能够读懂正则表达式，编写见到的正则匹配

　　4、会使用re模块操作正则表达式

正则表达式特点：

　　1、方便文本处理

　　2、支持语言众多

　　3、使用灵活，变化多样

数据的分类：

　　1、结构化数据：

　　　　特点：有固定的格式，如HTML，xml，json

　　2、非结构化的工具：

　　　　示例：图片，音频，视频，这类数据一半存储为二进制

　　　　　　以wb方式写入文件中

re模块使用流程

　　1、写法1

　　　　r_list=re.findall('正则'，‘字符串’，re.S)

　　2、写法2

　　　　1、创建编译对象

　　　　　　p = re.compile('正则',re.S)

　　　　2、进行字符串匹配

　　　　　　r_list = p.findall(html)

　　3、常用的方法

　　　　1、match(s):字符串开头第一个，返回对象

　　　　2、search(s):从开始往后找，匹配第一个，返回对象

　　　　3、group()、从match和search中返回对象中取值

　　　　4、findall()、返回全部匹配，返回一个列表

　　4、元字符

　　　　. ：匹配任意一个字符，不包括

　　　　d：匹配1个数字

　　　　s：空白字符

　　　　S：非空白字符#[sS]*匹配所有的字符

　　　　[] ：包含 [] 内容 #A[BCD]E --> ABE ACE 或者ADE

　　　　w：普通字符

　　　　W：特殊字符

　　　　

　　　　*：0次或多次

　　　　+：一次或多次

　　　　？：0次或一次

　　　　

　　　　{m}：m次

　　　　{m,n}：m-->n次，AB[1,3]--->ABC ABBC ABBBC

　　5、贪婪模式和非贪婪模式

　　　　1、贪婪模式匹配

　　　　　　(.* ) 点星，在整个表达式匹配成功的前提下，尽可能多的去匹配

　　　　2、非贪婪模式

　　　　　　(.*?)，在整个表达式匹配成功的前提下，尽可能少的去匹配　　　
import re with open('./hei.html', 'r', encoding='utf-8') as f: file = f.read() p = re.compile('<script>(.*)</script>', re.S) #使用re.S参数以后，正则表达式会将这个字符串作为一个整体，将“ ”当做一个普通的字符加入到这个字符串中，在整体中进行匹配 r_list = p.findall(file) print(r_list)
　　

正则表达式分组

　　　
import re #说明：先按照整体匹配出来，然后再匹配（）中的内容 #如果有2个或者多个（），则以元组的方式去显示 s='A B C D' p1=re.compile('w+s+w+') print(p1.findall(s)) p2=re.compile('(w+)s+w+') print(p2.findall(s)) p3=re.compile('(w+)s+(w+)') print(p3.findall(s)) #w代表普通字符 s空白字符 +一次或多次 #第一步['AB','CD'] #第二步[('A','B'),('C','D')]
　　
运行结果： ['A B', 'C D'] ['A', 'C'] [('A', 'B'), ('C', 'D')]
　　

　　

　　　　　　
查看全文

相关阅读:
2018-8-10-win10-uwp-按下等待按钮
 2018-8-10-win10-uwp-按下等待按钮
 2019-6-23-win10-uwp-应用放到桌面
 2019-6-23-win10-uwp-应用放到桌面
 PHP mysqli_get_client_info() 函数
 PHP mysqli_get_charset() 函数
 PHP mysqli_free_result() 函数
 PHP mysqli_field_tell() 函数
 PHP mysqli_field_seek() 函数
 约束、视图、序列、伪列和索引

原文地址：https://www.cnblogs.com/followlqc/p/11081480.html