要进行机器学习,先要有数据记录
这组记录的集合称为一个"数据集“
每条记录是关于一个事件或对象的描述 称为"示例" (instance) 或"样本" (samp1e). (色泽=浅自;根蒂t硬挺;敲声=清脆)
反映事件或对象在某方面的表现或性质的事项(例如"色泽""根蒂" "敲声") 称为 属性 或"特征" (feature); 属性值(乌黑)
属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (samp1e space)或"输入空间"
从数据中学得模型的过程称为"学习" (le缸ning)或"训练" (training)
训练过程中使用的数据称为"训练数据" (training data) ,其中每个样本称为一个训练样本" (training samp1e),
训练样本组成的集合称为"训练集" (training set).
例如"好瓜",称为"标
记" (labe1); 拥有了标记信息的示例,则称为"样例" (examp1e).
例如"好瓜" "坏瓜",此类学习任务称为
"分类" (classification); 若欲预测的是连续值?例如西瓜成熟度0.95 、0.37 ,
此类学习任务称为"回归" (regression).
学得模型后,使用其进行预测的过程称为"测试" (testing) ,被预测的样本
称为测试样本" (testing sample).
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督学习"和学习" (supervised learning) 和"无监督学习" (unsupervised learning) ,分类和回归是前者的代表,而聚类则是后者的代表.