MIT-Adobe FiveK Dataset 图片自动下载
注:经过网友的提示,发现有更为方便的获得C修过的图片。只需要下载原始的50G的raw图片,然后在电脑上面安装light room,这个软件可以应用数据集中所记录的各个修图人员的操作数据,因此里面记录了所有五个人修过的图片数据,具体可以参考:https://github.com/yuanming-hu/exposure/wiki/Preparing-data-for-the-MIT-Adobe-FiveK-Dataset-with-Lightroom
MIT-Adobe FiveK是现在很多做图像增强(image enhancement)与图像修饰(image retouching)方面研究的人员经常会使用到的数据库。这个数据库中包含5000张dng格式的原始图片及分别由五个(A,B,C,D,E)专业修图人员手工修饰后的图片。关于该数据库的详细资料可以在:https://data.csail.mit.edu/graphics/fivek/上找到。博主目前也在作图像增强方面的算法,在该网站上面,虽然提供了原始图片的下载链接,但是修饰后的图片只提供了每个图片的独立下载链接,手工对这些图片一张张下载的话,肯定是一件令人抓狂的事情,因此博主打算应用一个python脚本来自动下载所需要的图片。
查看网页的源码,发现这些经过修饰后的图片的URL存在一定的规律,例如:由C修饰的第一张图片的URL为https://data.csail.mit.edu/graphics/fivek/img/tiff16_c/a0001-jmac_DSC1459.tif。该地址可以划分为三部分:https://data.csail.mit.edu/graphics/fivek/img/(不变),tiff16_c(代表C修饰的图片,如果最后一个字母是D,那么就代表D所修饰的图片),a0001-jmac_DSC1459.tif(文件名)。发现这一规律之后,我们就可以运用简单的python脚本,通过图片的文件名来将图片下载到本地。
数据集中所有文件的名称在下载原始图片的时候就可以下载下来,它们被分别放置在名为:filesAdobe.txt和filesAdobeMIT.txt这两个文件中。自动下载的脚本如下:
import os import sys from urllib.request import urlretrieve #改变当前工作路径 CURRENT_PATH="/home/luohang/PyLearn"#本文件所在路径 os.chdir(CURRENT_PATH)#改变当前路径 #存储图像名称的list img_lst=[] #读取图片名列表 with open('filesAdobe.txt', 'r') as f: for line in f.readlines(): img_lst.append(line.rstrip(" "))#去掉换行符 with open('filesAdobeMIT.txt', 'r') as f: for line in f.readlines(): img_lst.append(line.rstrip(" "))#去掉换行符 #urlretrieve 函数的回调函数,显示下载进度 def cbk(a,b,c): '''回调函数 @a:已经下载的数据包数量 @b:数据块的大小 @c:远程文件的大小 ''' per=100.0*a*b/c if per>100: per=100 #在终端更新进度 sys.stdout.write("progress: %.2f%% " % (per)) sys.stdout.flush() #根据文件的url下载图片 for i in img_lst: URL='https://data.csail.mit.edu/graphics/fivek/img/tiff16_c/'+i+'.tif'#下载由C所调整的图像(可根据需要下载其它的四类图像) print('Downloading '+i+':') urlretrieve(URL, '/media/luohang/软件/FiveK_C/'+i+'.tif', cbk)#将所获取的图片存储到本地的地址内
运行结果如下: