简介
学习深度学习最重要的就是数据集啦。小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看到的,参见https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/。
第一部分 图像类
1、MNIST
链接 http://yann.lecun.com/exdb/mnist/
描述:手写数字识别,深度学习入门级数据集。包含60000个训练数据及10000个测试数据,可分为10类
大小:50MB
文献:Dynamic Routing Between Capsules
2、MS-COCO
链接 http://cocodataset.org/#home
描述:各个论文中常用数据集之一,可用于图像分割,边缘检测,关键点检测及图像捕获
大小:25GB
文献:Mask R-CNN
3、ImageNet
链接 http://www.image-net.org/
描述:最有名的图像数据集之一,目前比较常用的模型如VGG、Inception、Resnet都是基于它训练的。
大小:150GB
文献:Aggregated Residual Transformations for Deep Neural Networks
4、Open Image Dataset
链接 https://github.com/openimages/dataset#download-the-data
描述:一个包含近900万个图像URL的数据集。 这些图像拥有数千个类别及边框进行了注释。 该数据集包含9,011219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。
大小:500GB
项目:Resnet 101 image classification model (trained on V2 data): Model checkpoint, Checkpoint readme, Inference code.
5、VisualQA
链接 http://www.visualqa.org/
描述:关于图像的问答系统数据集
大小:25GB
文献:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge
6、The Street View House Numbers(SVHN)
链接 http://ufldl.stanford.edu/housenumbers/
描述:门牌号数据集,可用来做物体检测与识别
大小:2.5GB
文献:Distributional Smoothing With Virtual Adversarial Training
7、CIFAR-10
链接 http://www.cs.toronto.edu/~kriz/cifar.html
描述:有名的图像识别数据集,包含 50000张训练数据,10000张测试数据,可分为10类
大小:170MB
8、Fashion-MNIST
链接 https://github.com/zalandoresearch/fashion-mnist
描述: 包含60000训练样本和10000测试样本的用于服饰识别的数据集,可分为10类。
大小:30MB
文献:Random Erasing Data Augmentation
第二部分 自然语言处理类
1、IMDB 影评数据
链接 http://ai.stanford.edu/~amaas/data/sentiment/
描述:可以实现对情感的分类,除了训练集和测试集示例之外,还有更多未标记的数据。 原始文本和预处理的数据也包括在内。
大小:80MB
文献:Learning Structured Text Representations
2、Twenty Newsgroups数据
链接 https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
描述:包含20类新闻的文章信息,内类包含1000条数据
大小:20MB
文献: Very Deep Convolutional Networks for Text Classification
3、Sentiment140
链接 http://help.sentiment140.com/for-students/
描述:一个用于情感分析的数据集
大小:80MB
文献:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets
4、WordNet
链接 https://wordnet.princeton.edu/
描述:根据单词的意义将单词组成的一个“单词网络”。
大小:10MB
文献:Wordnets: State of the Art and Perspectives
5、Yelp 点评数据集
链接 https://www.yelp.com/dataset
描述:数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。
大小:2.66GB JSON文件 2.9GB SQL文件 7.5GB图片数据
6、维基百科语料库(英语)
链接 http://nlp.cs.nyu.edu/wikipedia-data/
描述: 包含4400000篇文章 及19亿单词,可用来做语言建模
大小:20MB
文献:Breaking The Softmax Bottelneck: A High-Rank RNN language Model
7、博客作者身份语料库
链接 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
描述:从blogger.com收集到的19,320名博主的博客,其中博主的信息包括博主的ID、性别、年龄、行业及星座。
大小:300MB
8、各种语言的机器翻译数据集
链接 http://statmt.org/wmt18/index.html
描述:包含英-汉、英-法、英-捷克、英语- 爱沙尼亚、英 - 芬兰、英-德、英 - 哈萨克、英 - 俄、英 - 土耳其之间互译的数据集
大小:15GB
第三部分 语音类
1、Free Spoken Digit Dataset
链接 https://github.com/Jakobovski/free-spoken-digit-dataset
描述:数字语音识别数据集,包含3个人的声音,每个数字说50遍,共1500条数据
大小:10MB
文献:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures
2、Free Music Archive (FMA)
链接 https://github.com/mdeff/fma
描述:一个可以用于对音乐进行分析的数据集,数据集中包含歌曲名称、音乐类型、曲目计数等信息。
大小:1000GB
文献:Learning to Recognize Musical Genre from Audio
3、Ballroom
链接 http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
描述:舞厅舞曲数据集,可对舞曲风格进行识别。
大小:14GB
文献:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles
4、Million Song Dataset
链接 https://labrosa.ee.columbia.edu/millionsong/
描述:由Echo Nest提供的一百万首歌曲的特征数据。 该数据集不包含任何音频, 但是可以使用他们提供的代码音频
大小:280GB
文献: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge
5、LibriSpeech
链接 http://www.openslr.org/12/
描述:包含1000小时采样频率为16Hz的英语语音数据及所对应的文本,可用作语音识别
大小:60GB
文献:Letter-Based Speech Recognition with Gated ConvNets
6、VoxCeleb
链接 http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
描述:VoxCeleb是一个大型的说话人识别数据集。 它包含约1,200名来自YouTube视频的约10万个话语。 数据在性别是平衡的(男性占55%)。说话人跨越不同的口音,职业和年龄。 可用来对说话者的身份进行识别。
大小:150MB
文献:VoxCeleb: a large-scale speaker identification dataset
第四部分 Analytics Vidhya实践问题
这部分是Analytics Vidhya(原博客所在网站)在解决实际问题中所收集的数据,有兴趣的可以参见他们的竞赛。
1、Twitter情绪分析
链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/register
描述:识别是否包含种族歧视及性别歧视的推文。
大小:3MB
2、印度演员的年龄识别数据集
链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
描述:根据人的面部属性,识别人的年龄的数据集。
大小:48MB
3、城市声音分类数据集
链接 https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
描述:该数据集包含来自10个类的城市声音的8732个标记的声音片段,每个片段时间小于4秒。
大小:训练数据集3GB,训练数据集2GB。