import re import string import sys import os import urllib url="http://tieba.baidu.com/p/2521298181"#这个是某贴吧地址 imgcontent=urllib.urlopen(url).read()#抓取网页内容 reg = r'src="(.+?.jpg)" pic_ext' imgre = re.compile(reg) urllist = imgre.findall(imgcontent) #urllist=re.findall(r'src="(http.+?.jpg)"',imgcontent,re.I)#提取图片链接 if not urllist: print 'not found...' else: #下载图片,保存在当前文件夹的pythonimg文件夹下 filepath=os.getcwd()+'pythonimg' if os.path.exists(filepath) is False: os.mkdir(filepath) x=1 print u'爬虫准备就绪...' for imgurl in urllist: temp= filepath + '\%s.jpg' % x print u'正在下载第%s张图片' % x print imgurl urllib.urlretrieve(imgurl,temp) x+=1 print u'图片完成下载,保存路径为'+filepath
为方便调试python程序,以下贴出打印文件、模块以及行号的功能:
import sys print sys._getframe().f_code.co_filename #获取当前文件名称; print sys._getframe().f_code_name #获取函数名; print sys._getframe().f_lineno #当前行