zoukankan html css js c++ java

第二篇：正则表达式

爬虫需要用到正则，python内置了正则re模块

#!/usr/bin/env python3.5
# _*_coding:utf-8 _*_

import re

#要匹配对象
line = "This is a beautiful woman"
#匹配模式,^表示行首，
regex_str1 = "^T.*n$"
regex_str2 = "^t"

if re.match(regex_str1,line):
    print("以T开头,以n结尾")

if re.match(regex_str2,line):
    print("以t开头")

关于贪婪匹配和懒惰匹配：正则默认匹配模式是贪婪匹配模式：

line = "AOOOOAOOOABAlfsdf"
regex_str = ".*(A.*A).*"
match_obj = re.match(regex_str,line)
print(match_obj.group(1))

result:
ABA

上面的例子，这种属于贪婪匹配，下面引入？符号就能看出效果了，？属于懒惰匹配：

line = "AOOOOAOOOABAlfsdf"
regex_str = "A.*?A"
match_obj = re.match(regex_str,line)
print(match_obj.group())

result:
AOOOOA

没加？的情况：

line = "AOOOOAOOOABAlfsdf"
regex_str = "A.*A"
match_obj = re.match(regex_str,line)
print(match_obj.group())

result：
AOOOOAOOOABA

+前面的字符至少出现一次,下面的子字符串‘AA’就不符合要求了：

line = "AOOOOAOOOABAlfAAsdf"
regex_str = ".*(A.+A)"
match_obj = re.match(regex_str,line)
print(match_obj.group(1))

result:
AlfAA

大括号，限定次数：

{m}匹配前一个字符m次，{m,n}匹配前一个字符m到n次，省略n则匹配m至无限次，省略m则匹配0至n次

中括号，指定字符：

[abc] 匹配abc中的一个，[^a] 匹配除了a以外的一个字符，[0-9] 匹配0到9中的一个

s 匹配空白字符　　S 匹配非空白字符

w 匹配单词字符 W 匹配非单词字符

[u4E00-u9FA5] 匹配汉字：

line = "abcad大家下午好"
regex_str = ".*?([u4E00-u9FA5].*)"
match_obj = re.match(regex_str,line)
print(match_obj.group(1))

result:
大家下午好

d 匹配数字

查看全文

相关阅读:
python关于字典如何格式化地写入文件之中
 关于python如何安装和配置chromedriver以及一些相关问题
 python编码的原理以及写入文件中乱码的原因
 json到底是什么？？？？？？
scrapy框架Request函数callback参数为什么是self.parse而不是self.parse( )
scrapy框架xpath的几点说明
 python基于scrapy框架的反爬虫机制破解之User-Agent伪装
 HTML,CSS,JavaScript,json,xml之间的关系
 scrapy框架在未登录模式下爬取文本，文件和图片的几点收获
 scrapy爬虫提取网页链接的两种方法以及构造HtmlResponse对象的方式

原文地址：https://www.cnblogs.com/laonicc/p/7406030.html