zoukankan      html  css  js  c++  java
  • 常用小样本数据集介绍与下载汇总

     本文整理了近些年常用的小样本数据集,提供了数据集介绍,参考文献以及下载地址。有资源的都已经上传至百度云盘,其他数据集也提供了官方的下载地址(有些可能需要FQ)。最后还对各个数据集的情况做了一个简单的汇总。

    1.Omniglot
      Omniglot数据集是由来自50种不同语言的1,623个手写字符构成的,每个字符都有20个不同的笔迹,这就构成了一个样本类别极多(1623种),但每种类别的样本数量极少(20个)的小样本手写字符数据集。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。
      参考文献:Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
           下载地址:https://pan.baidu.com/s/19Y5aGfa-lNEZTDUeL1jP4g
      提取码:4y3z

    2. miniImageNet
      miniImageNet数据集是从ImageNet数据集中选择了60,000张图像构成的,共100个类别,每个类别有600张图像,每幅图像的尺寸为84*84。使用中通常选择其中80个类别的图像作为训练集,剩余的20个类别的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。
      参考文献:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
      下载地址:https://pan.baidu.com/s/1nqBSA1w5mQuhlrQeCY4HgA
      提取码:ajrz

    3. tieredImageNet
      tieredImageNet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779,165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类),数据集划分情况如下图。

            参考文献:Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.

      下载地址:
      https://drive.google.com/uc?export=download&confirm=_SLS&id=1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

    4. CUB-200
      CUB-200数据集全称为Caltech-UCSD Birds-200-2011数据集,是由加利福尼亚理工学院提供的鸟类数据库,共包含200种鸟类的11,788张图像。使用中通常划分为训练集(100种),验证集(50种)和测试集(50种),图像尺寸统一裁剪为84*84。
      参考文献:Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds- 200-2011 dataset. 2011.
      下载地址:https://pan.baidu.com/s/1DEmLxePvDuJX1goSzM9r6Q
      提取码:f1l5

    5. CIFAR-FS
      CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。
      参考文献:Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
      下载地址:https://pan.baidu.com/s/1HqRUw3dmsMBInt_Fh3J_Uw
      提取码:ub38

    6. ImageNet-1K Challenge
      ImageNet-1K Challenge数据集同样来自ImageNet数据集,是共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。
      参考文献:Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
      下载地址:http://www.image-net.org/

    7. FC100
      FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。但不同之处在于  FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。
      参考文献:Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
      下载地址:https://pan.baidu.com/s/1Wnlp1-obKsMLcHITYQ1CLg
      提取码:kcd6

    ————————————————
    版权声明:本文为CSDN博主「深视」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_36104364/article/details/107508592

  • 相关阅读:
    每日一题 为了工作 2020 0412 第四十一题
    每日一题 为了工作 2020 04011 第四十题
    每日一题 为了工作 2020 0410 第三十九题
    每日一题 为了工作 2020 0409 第三十八题
    每日一题 为了工作 2020 0408 第三十七题
    每日一题 为了工作 2020 0407 第三十六题
    每日一题 为了工作 2020 0406 第三十五题
    每日一题 为了工作 2020 0405 第三十四题
    学习总结(二十四)
    学习总结(二十三)
  • 原文地址:https://www.cnblogs.com/cy0628/p/15630209.html
Copyright © 2011-2022 走看看