今天爬取中药的图片,最初是采用直接爬取整个网页,然后解析爬取网页中的图片,由于网页中存在很多其他图片并且不好命名,所以用之前爬下来的数据才能够数据库中读取,根据图片的具体地址爬取图片
#图片爬取全代码 import requests import os import 数据库连接 #定义一个函数参数为图片的地址,以及文件名 def picture (url ,str1): root = 'F:\大学\毕业设计\中药图片\' #图片的存储地址 path = root + str1 + '.jpg' #图片的地址以及名称 try: if not os.path.exists(root): os.mkdir(root) # 如果当前根目录不存在,建立这样一个目录 if not os.path.exists(path): # 判断图片文件是否已经存在 r = requests.get(url) with open(path, 'wb') as f: f.write(r.content) f.close() print('文件保存成功') else: print('文件已存在') except: print('爬取失败') #url='http://www.zhongyoo.com/uploads/allimg/2011/1-201119163434137-lp.jpg' #path=root+url.split('/')[-1]#被加数表示的是图片路径中图片的名字加后缀 #path=root+ '苦玄参' + '.jpg' if __name__ == '__main__': dbt = 数据库连接.jdbc_connect("localhost", "root", "gy1212", "zhongyao") sql = "select * from 中药 " srcs = dbt.select(sql) for row in srcs: str1 = row[0] src = row[2] picture(src,str1)