import re # 正则表达式中的转义 : # '(' 表示匹配小括号 # [()+*?/$.] 在字符组中一些特殊的字符会现出原形 # 所有的 w d s( , , ) W D S都表示它原本的意义 # [-]只有写在字符组的首位的时候表示普通的减号 # 写在其他位置的时候表示范围[1-9] # 如果就是想匹配减号 [1-9] # 在python中使用正则表达式 # 转义符 : 在正则中的转义符 在python中的转义符 # re模块 # findall search match # ret=re.findall("d+","weiydga16278364ahdiui7733") # print(ret) # print(ret) # ret1=re.search("d+","weiydga16278364ahdiui7733") # print(ret1) # if ret1:print(ret1.group()) # ret2=re.match("d+","weiydga16278364ahdiui7733") # print(ret2) # if ret2:print(ret2.group()) # sub subn split模块用法 # ret=re.sub("d+","H","weiydga16278364ahdiui7733",1) # print(ret) # ret1=re.subn("d+","H","weiydga16278364ahdiui7733") # print(ret1) # ret2=re.split("d+","weiydga16278364ahdiui7733") # print(ret2) # compile finditer模块用法:compile节省时间效率,finditer节省空间效率 # ret3=re.compile("d+") # ret4=ret3.search("weiydga16278364ahdiui7733") # print(ret4.group()) # ret5=re.finditer("d+","weiydga16278364ahdiui7733") # for r in ret5: # print(r.group()) # flags有很多可选值:compile中的参数 # re.I(IGNORECASE)忽略大小写,括号内是完整的写法 # re.M(MULTILINE)多行模式,改变^和$的行为 # re.S(DOTALL)点可以匹配任意字符,包括换行符 # re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 w, W, , B, s, S 依赖于当前环境,不推荐使用 # re.U(UNICODE) 使用w W s S d D使用取决于unicode定义的字符属性。在python3中默认使用该flag # re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释 # python中的正则表达式: # findall 会优先显示分组中的内容,要想取消分组优先,(?:正则表达式) # ret=re.compile('-0.d+|-[1-9]d*(?:.d+)?') # c1=ret.findall('-1asdada-200') # print(c1) # ret=re.compile('d+(?:.d+)|(d+)') # ret1=ret.findall("1-20*(40.25-23)+25") # print(ret1) # ret1.remove("") # print(ret1) # split 遇到分组 会保留分组内被切掉的内容 # ret=re.split("(d+)","eyau123ausui234aips")#保留了数字 # print(ret) # search 如果search中有分组的话,通过group(n)就能够拿到group中的匹配的内容 # 匹配标签,匹配整数,数字匹配,爬虫 # ret=re.search("<(w+)>w+<(w+)>w+<(w+)>","<a>asd<b>aasd<c>") # print(ret.group()) # print(ret.group(1)) # print(ret.group(2)) # print(ret.group(3)) # search的分组命名:1.(?P<命名>)2.1 # ret=re.search("<(?P<name>w+)>w+</(?P=name)>","<h>adcf</h>") # print(ret.group()) # print(ret.group("name")) # ret=re.search(r"<(w+)>w+</(1)>","<h>adcf</h>") # print(ret.group()) # print(ret.group(1)) # ret=re.search("<(?P<name>w+)>w+<(?P<sex>w+)>w+<(?P<age>w+)>","<a>asd<b>aasd<c>") # print(ret.group()) # print(ret.group('name')) # print(ret.group('sex')) # print(ret.group('age')) # 爬虫代码块: # from urllib.request import urlopen # # # 内置的包 来获取网页的源代码 字符串 # # res = urlopen('https://www.douban.com/') # # print(res.read().decode('utf-8')) # from urllib.request import urlopen # res=urlopen("baidu") # print(res.red.decode("utf-8")) # 分别使用while循环,和for循环计算1-3+5-7+9-11...99的结果 # print(re.findall(r'\c',"asnadbc"))