zoukankan      html  css  js  c++  java
  • 25个深度学习开源数据集

    简介

    学习深度学习最重要的就是数据集啦。小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看到的,参见https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/。

    第一部分  图像类

    1、MNIST

    链接 http://yann.lecun.com/exdb/mnist/

    描述:手写数字识别,深度学习入门级数据集。包含60000个训练数据及10000个测试数据,可分为10类

    大小:50MB

    文献:Dynamic Routing Between Capsules

    2、MS-COCO

    链接 http://cocodataset.org/#home

    描述:各个论文中常用数据集之一,可用于图像分割,边缘检测,关键点检测及图像捕获

    大小:25GB

    文献:Mask R-CNN

    3、ImageNet

    链接 http://www.image-net.org/

    描述:最有名的图像数据集之一,目前比较常用的模型如VGG、Inception、Resnet都是基于它训练的。

    大小:150GB

    文献:Aggregated Residual Transformations for Deep Neural Networks

    4、Open Image Dataset

    链接 https://github.com/openimages/dataset#download-the-data

    描述:一个包含近900万个图像URL的数据集。 这些图像拥有数千个类别及边框进行了注释。 该数据集包含9,011219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

    大小:500GB

    项目:Resnet 101 image classification model (trained on V2 data): Model checkpointCheckpoint readmeInference code.

    5、VisualQA

    链接 http://www.visualqa.org/

    描述:关于图像的问答系统数据集

    大小:25GB

    文献:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

    6、The Street View House Numbers(SVHN)

    链接 http://ufldl.stanford.edu/housenumbers/

    描述:门牌号数据集,可用来做物体检测与识别

    大小:2.5GB

    文献:Distributional Smoothing With Virtual Adversarial Training

    7、CIFAR-10

    链接 http://www.cs.toronto.edu/~kriz/cifar.html

    描述:有名的图像识别数据集,包含 50000张训练数据,10000张测试数据,可分为10类

    大小:170MB

    文献:ShakeDrop regularization

    8、Fashion-MNIST

    链接 https://github.com/zalandoresearch/fashion-mnist

    描述: 包含60000训练样本和10000测试样本的用于服饰识别的数据集,可分为10类。

    大小:30MB

    文献:Random Erasing Data Augmentation

    第二部分 自然语言处理类

    1、IMDB 影评数据

    链接 http://ai.stanford.edu/~amaas/data/sentiment/

    描述:可以实现对情感的分类,除了训练集和测试集示例之外,还有更多未标记的数据。 原始文本和预处理的数据也包括在内。

    大小:80MB

    文献:Learning Structured Text Representations

    2、Twenty Newsgroups数据

    链接 https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

    描述:包含20类新闻的文章信息,内类包含1000条数据

    大小:20MB

    文献: Very Deep Convolutional Networks for Text Classification

    3、Sentiment140

    链接 http://help.sentiment140.com/for-students/

    描述:一个用于情感分析的数据集

    大小:80MB

    文献:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

    4、WordNet

    链接 https://wordnet.princeton.edu/

    描述:根据单词的意义将单词组成的一个“单词网络”。

    大小:10MB 

    文献:Wordnets: State of the Art and Perspectives

    5、Yelp 点评数据集

    链接 https://www.yelp.com/dataset

    描述:数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

    大小:2.66GB JSON文件 2.9GB SQL文件 7.5GB图片数据

    文献:Attentive Convolution

    6、维基百科语料库(英语)

    链接 http://nlp.cs.nyu.edu/wikipedia-data/

    描述: 包含4400000篇文章 及19亿单词,可用来做语言建模

    大小:20MB

    文献:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

    7、博客作者身份语料库

    链接 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

    描述:从blogger.com收集到的19,320名博主的博客,其中博主的信息包括博主的ID、性别、年龄、行业及星座。 

    大小:300MB

    文献:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

    8、各种语言的机器翻译数据集

    链接 http://statmt.org/wmt18/index.html

    描述:包含英-汉、英-法、英-捷克、英语- 爱沙尼亚、英 - 芬兰、英-德、英 - 哈萨克、英 - 俄、英 - 土耳其之间互译的数据集

    大小:15GB

    文献:Attention Is All You Need

    第三部分 语音类

    1、Free Spoken Digit Dataset

    链接 https://github.com/Jakobovski/free-spoken-digit-dataset

    描述:数字语音识别数据集,包含3个人的声音,每个数字说50遍,共1500条数据

    大小:10MB

    文献:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

    2、Free Music Archive (FMA)

    链接 https://github.com/mdeff/fma

    描述:一个可以用于对音乐进行分析的数据集,数据集中包含歌曲名称、音乐类型、曲目计数等信息。

    大小:1000GB

    文献:Learning to Recognize Musical Genre from Audio

    3、Ballroom

    链接 http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

    描述:舞厅舞曲数据集,可对舞曲风格进行识别。

    大小:14GB

    文献:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

    4、Million Song Dataset

    链接 https://labrosa.ee.columbia.edu/millionsong/

    描述:由Echo Nest提供的一百万首歌曲的特征数据。 该数据集不包含任何音频, 但是可以使用他们提供的代码音频

    大小:280GB

    文献: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

    5、LibriSpeech

    链接 http://www.openslr.org/12/

    描述:包含1000小时采样频率为16Hz的英语语音数据及所对应的文本,可用作语音识别

    大小:60GB

    文献:Letter-Based Speech Recognition with Gated ConvNets

    6、VoxCeleb

    链接 http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

    描述:VoxCeleb是一个大型的说话人识别数据集。 它包含约1,200名来自YouTube视频的约10万个话语。 数据在性别是平衡的(男性占55%)。说话人跨越不同的口音,职业和年龄。 可用来对说话者的身份进行识别。

    大小:150MB

    文献:VoxCeleb: a large-scale speaker identification dataset

    第四部分 Analytics Vidhya实践问题

    这部分是Analytics Vidhya(原博客所在网站)在解决实际问题中所收集的数据,有兴趣的可以参见他们的竞赛。

    1、Twitter情绪分析

    链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/register

    描述:识别是否包含种族歧视及性别歧视的推文。

    大小:3MB

    2、印度演员的年龄识别数据集

    链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

    描述:根据人的面部属性,识别人的年龄的数据集。

    大小:48MB

    3、城市声音分类数据集

    链接 https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

    描述:该数据集包含来自10个类的城市声音的8732个标记的声音片段,每个片段时间小于4秒。

    大小:训练数据集3GB,训练数据集2GB。

  • 相关阅读:
    不敢想,做个博客竟如此简单!
    我有一台服务器,能干啥?
    精品 IDEA 插件大汇总!值得收藏
    怒肝半月!Python 学习路线+资源大汇总
    怒肝 Linux 学习路线,这回不难
    多环境
    分享 10 个高星的创意项目!
    js的attribute
    选择大厂该做哪些准备?|小白进入大厂现状
    小白程序猿了解大厂的开发模式
  • 原文地址:https://www.cnblogs.com/burningmyself/p/9145167.html
Copyright © 2011-2022 走看看