功能描述:
使用python获取目标网页的源码及保存网页图片保存到本地
代码:
1 import re 2 import urllib 3 import sys 4 5 6 #获取页面源码 7 8 def getHtml(url): 9 page=urllib.urlopen(url) # 打开页面 10 html = page.read() #获取目标页面的源码 11 return html 12 13 #获取页面中的图片地址 14 15 def getImg(html): 16 reg=r'src="(.+?.png)"' #正则表达是筛选图片格式 17 img = re.compile(reg) #创建模式对象 18 imglist = re.findall(img,html) #解析页面源码获取图片列表 19 x=0 20 for imgurl in imglist: 21 try: 22 imgurl1=url+imgurl 23 #由于获取的地址不带域名信息,所以拼接上域名 24 urllib.urlretrieve(imgurl1,'%s.png' % x) 25 # 保存图片,进行重命名 26 except: 27 print('Unexpected error:',sys.exc_info()) 28 return imglist 29 30 #调用方法 31 32 url = “http://www.zjgdpf.org.cn” 33 html = getHtml(url) 34 print(html) 35 print(getImg(html))