import urllib.request #导入urllib库 url= "http://edu.csdn.net/courses" #把网址付给url data = urllib.request.urlopen(url).read()# 使用urllib.request.urlopen()的方法.read()读取url data = data.decode('UTF-8')# print(data)
读取csdn网页,现在我们要把网页中讲课老师名字提取出来
import re #导入正则表达式库 pat="<p>讲师:(.*?)</p>" # 设置正则表达式 提取标题 讲师(.*?)贪婪模式 ret=re.compile(pat).findall(data )#使用compile方法 找出data 里边所以的讲师的名字 print(ret)#打印出来
import urllib.request import re url= "https://read.douban.com/provider/all" data = urllib.request.urlopen(url).read() data = data.decode('UTF-8') #print(data) pat='<div class="name">(.*?)</div>' ret=re.compile(pat).findall(data ) print(ret)