zoukankan      html  css  js  c++  java
  • 最流行的4个机器学习数据集【转】

    机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

    Iris

    Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

    数据集特征:多变量记录数:150领域:生活
    属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01
    相关应用: 分类 缺失值? 网站点击数: 563347

    Adult

    该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

    数据集特征:多变量记录数:48842领域:社会
    属性特征: 类别型,整数 属性数目: 14 捐赠日期 1996-05-01
    相关应用: 分类 缺失值? 网站点击数: 393977

    Wine

    这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

    数据集特征:多变量记录数:178领域:物理
    属性特征: 整数,实数 属性数目: 13 捐赠日期 1991-07-01
    相关应用: 分类 缺失值? 网站点击数: 337319

    Car Evaluation

    这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

    数据集特征:多变量记录数:1728领域:N/A
    属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01
    相关应用: 分类 缺失值? 网站点击数: 272901

    小结

    通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

    以上数据集下载地址http://archive.ics.uci.edu/ml/

  • 相关阅读:
    Java学习二十九天
    Java学习二十八天
    47. Permutations II 全排列可重复版本
    46. Permutations 全排列,无重复
    subset ii 子集 有重复元素
    339. Nested List Weight Sum 339.嵌套列表权重总和
    251. Flatten 2D Vector 平铺二维矩阵
    217. Contains Duplicate数组重复元素
    209. Minimum Size Subarray Sum 结果大于等于目标的最小长度数组
    438. Find All Anagrams in a String 查找字符串中的所有Anagrams
  • 原文地址:https://www.cnblogs.com/fuleying/p/3895817.html
Copyright © 2011-2022 走看看