爬取网址:https://www.dbmeinv.com/ 豆瓣mv(现已更名)
注:自制力不好的同学,先去准备营养快线!
import requests from bs4 import BeautifulSoup import urllib.request # 按照序号命名 x = 0 #获取图片 def getGrilsImg(page = 1): response = requests.get("https://www.dbmeinv.com/?pager_offset={}".format(page)) # 获取网页 html = response.text # 获取对象 解析网页 'html.parser'为解析方式,还有一种为lxml soup = BeautifulSoup(html, 'html.parser') # 找到img标签 返回一个列表 girl = soup.find_all('img') global x for i in girl: # 通过提取img标签中的src属性值,获取src路径 imgsrc = i.get('src') # 记得新建images文件夹 urllib.request.urlretrieve(imgsrc, './images/%d.jpg'%x) x += 1 print("正在下载第%d张"%x) # 1<= x < 11 下载前十页 for i in range(1,11): print("正在下载第{}页图片".format(i)) getGrilsImg(i)