zoukankan      html  css  js  c++  java
  • UCI

    数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。

    UCI上的“MultipleFeatures”数据库,这是一个手写数字识别问题,其中每个数字的数字化图像由6组共649个特征表示。

    UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。

    每个数据文件(*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文件包含的大量的文档资料。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

    下面以UCI中IRIS为例介绍一下数据集:

    ucidatairis中有三个文件:

    Index

    iris.data

    iris.names

    index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:

    Index of iris

    18 Mar 1996      105 Index

    08 Mar 1993     4551 iris.data

    30 May 1989     2604 iris.names

    iris.data为iris数据文件,内容如下:

    5.1,3.5,1.4,0.2,Iris-setosa

    4.9,3.0,1.4,0.2,Iris-setosa

    4.7,3.2,1.3,0.2,Iris-setosa

    ……

    7.0,3.2,4.7,1.4,Iris-versicolor

    6.9,3.1,4.9,1.5,Iris-versicolor

    ……

    6.3,3.3,6.0,2.5,Iris-virginica

    6.4,3.2,4.5,1.5,Iris-versicolor

    5.8,2.7,5.1,1.9,Iris-virginica

    7.1,3.0,5.9,2.1,Iris-virginica

    ……

    如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa

    iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:

    ……

    7. Attribute Information:

       1. sepal length in cm

       2. sepal width in cm

       3. petal length in cm

       4. petal width in cm

       5. class:

          -- Iris Setosa

          -- Iris Versicolour

          -- Iris Virginica

    ……

    9. Class Distribution: 33.3% for each of 3 classes.

    本数据的使用实例请参考其他论文,或本站后面的内容。

    下面以wine数据为例导入matlab并利用前面提到的libsvm做测试

    >> uiimport('wine.data')

    导入数据,workspace处出现wine数组178*14

    将标签和数据属性提取,并保存到matlab平台下的数据

    >> wine_label = wine(:,1);

    >> wine_data = wine(:,2:end);

    >> save winedat.mat

    (下次使用的时候可以直接>> load winedat)

    svm训练模型得到wine模型

    >> modelw = svmtrain(wine_label,wine_data);

    .*

    optimization finished, #iter = 239

    nu = 0.892184

    obj = -61.125695, rho = 0.131965

    nSV = 130, nBSV = 53

    .*

    optimization finished, #iter = 193

    nu = 0.882853

    obj = -50.421538, rho = -0.166754

    nSV = 107, nBSV = 42

    .*

    optimization finished, #iter = 214

    nu = 0.800233

    obj = -53.411663, rho = -0.286931

    nSV = 119, nBSV = 44

    Total nSV = 178

    分类结果

    >> [plabelw, accuracyw] = svmpredict(wine_label,wine_data,modelw);

    Accuracy = 100% (178/178) (classification

  • 相关阅读:
    模块的种类和导入方法
    小知识点补充
    9.17模拟赛2.0
    hdu2181 哈密顿绕行世界问题
    9.17模拟赛
    9.15模拟赛
    P1084 疫情控制
    9.14模拟赛
    【bzoj1232】[Usaco2008Nov]安慰奶牛cheer
    P3128 [USACO15DEC]最大流Max Flow
  • 原文地址:https://www.cnblogs.com/Evil-Rebe/p/4951217.html
Copyright © 2011-2022 走看看