zoukankan      html  css  js  c++  java
  • 阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍

    数据集的介绍

    1.“鲍鱼年龄”数据集(Abalone Data Set)。是通过预测鲍鱼环,也就是鲍鱼的年轮,来推断鲍鱼寿命。该数据集来自于UCI(University of California,Irvine,UCI)提出的用于机器学习的数据库。

     

    共有八个属性分别是:性别、长度、直径等

    具体的属性的介绍

     

    方法一:利用BP

     

    方法使用ELM

     

    方法三:使用SVM

     

    我:通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的,我们要做的就是知道每个函数的具体的意义,以及知道大致的流程。理解是一切的基础,也是我们可以自由的使用函数的基础

    2.“是否有心脏病”集的介绍

    (Statlog (Heart)Data Set)是通过研究年龄,性别,血压等属性的值来判断被访者是否有心脏病。

     

    具体的属性的特征:

     

    chest pain                                     胸痛

    resting blood pressure                           静息血压

    serum cholestoral                               血清胆汁酸

    fasting blood sugar                              空腹血糖

    resting electrocardiographic results                 休息心电图结果

    maxinum heart rate achieved                      最大心跳速率

    exercise induced angina                           锻炼诱发心绞痛

    oldpeak

    the slope of the peak exercise ST segment             锻炼高峰期ST段的斜率

    number of major vessels                           血管容量

    thal                                            塔尔

    输入:13个属性   输出:是1,否0

    分别是三中方法处理:

    3.“癌症患者生存期”集的介绍

    (Haberman‘s Survival Data Set’),是通过岁病人手术时的年龄,手术年份,检测到阳性腋窝淋巴结数三个方面,来判断病人的生存状况

     

    三个属性分别为:病人手术时的年龄,病人手术的年份,腋窝淋巴结阳性检测出的数量

    病人的生存状况:1代表病人存活了五年甚至更久,2代表并没没活过5年

     

    输入:三个属性

    输出:两个标签

    4.“小麦种子集”(Seed Data Set)

    通过不同的三种小麦种子(Kama、Rosa、Canadian)的物理的特性进而去判断种子的类型

     

    具体的属性:

     

    Perimeter                                     周长

    Compactness                                  紧凑

    length of kernel                                内核长度

    width of kernel                                 内核宽度

    asymmetry coefficient                           不对称系数

    length of kernel groove                           谷纹长度

    输入:以上的这些属性

    输出:就是判别属于那种类型

    5.“印第安人是否有糖尿病”

    (pima Indians Diabetes Data Set)是通过研究八个数值类型的属性然后的出相应的结论的判别。

    数据集的最后一个部分为分类的属性:0表示没有糖尿病;1表示有

     

    Plasma glucose concentration a 2 hours in an oral glucose tolerance test   

     在口服葡萄糖耐量试验中血浆葡萄糖浓度为2小时

    Diastolic blood pressure      舒张压

    Triceps skin fold thickness       三头肌皮褶厚度

    2-hours serum insulin           2小时血清胰岛素

    Body mass index               体重指数

    Diabetes  pedigree function     糖尿病谱系功能

    6.“普葡萄酒种类”

    (Wine Data Set)记录的是在意大利同一个区域里三种不同品种的葡萄酒的化学成分分析的结果。

     

    具体的属性为:

     

    每天进步一点点;不为琐事困扰,每日岁月静好。
  • 相关阅读:
    夜游遂宁滨江路
    易中天讲座十句人生感悟(发人深省,耐人寻味)
    遥望死海
    一直被忽略的成功之道:勤快并非优点,成功需要懒惰
    给别人以宽容,给自己以信心
    合理支配“财富”:经理人运用时间的12种典型模式
    三月的清晨
    学习的三重境界(想成功的人都不可错过)
    上班
    持续开发你的事业智慧:企业家保持冲锋势头的路径
  • 原文地址:https://www.cnblogs.com/Adaisme/p/8036754.html
Copyright © 2011-2022 走看看