机器学习作为人工智能的一个重要领域,我们有必要对其基本术语有清晰的理解
(1) 模型(Model):是机器学习某个算法所导出的、能够完成训练与预测等任务的,模型常用字母
任务就是使用数据来训练
参数(Parameter):是决定模型的东西,我们的训练目的就是把参数训练到一个能够使模型表现最好的值。一般而言,参数会用θ来表示,从而我们的模型
超参数:(Hyper Parameter),是决定模型结构或训练行为的东西。与参数不同的是超参数一般是不能被训练而只能被选择,换句话说我们可以通过选择不同的超参数来搭建出同一套算法下结构和训练方式不一样的模型,但是我们在训练的过程中,超参数常常是保持不变的。超参数可以用 来表示,不过需要单独指明超参数的场景很少,我们一般会将超参数和参数视为一个整体,并把这个整体用 (大写的),从而模型可以表示为 ,从直观上来看表示的就是“
(2) 空间 :就是表示“可能存在的取值”,比如模型空间就是表示“所有可能的模型的取值”,“参数空间”表示“所有可能的参数”,样本空间表示“所有可能的样本”。
(3)样本:是指数据集中的每一条单独的数据。如没有说明,会默认数据集中有N个样本,用符号:
特征向量(Feature Vector):样本中的就是特征向量,我们可以将特征向量直接输入模型(),也可以先对特征向量中的各个特征(Feature)进行预处理(Preprocess),然后将预处理后的特征向量作为模型的输入(),对特征向量进行预处理这一步通常称为数据预处理,此外,一般而言,我们会假设特征向量是n维的列向量,即一个特征向量中会有n个特征:
对于特征而言,又可以分为两种,离散型特征和连续性特征,离散型特征的取值是离散的,比如颜色的分类,红色、黄色、蓝色等等,连续性特征的取值是连续的,比如说人的身高,会有无线个取值。
标签:即为上述样本中的,是模型的目标,我们学习的最终目标是将特征向量空间中的每个特征向量在输入模型后,都能够输出相对应的、正确的标签。标签也分离散型标签跟连续性标签.
(3) 数据集:数据的集合
(4) 训练集:用于训练模型的数据,即用于发现和预测潜在关系的一组数据。
(5) 交叉验证集:模型使用训练集来进行训练,并会时不时地观察一下它在交叉验证集上的表现来决定是否继续训练,以及是否需要调节自身的参数。
(6) 测试集 :用来评估模型的性能的的数据,只有在使用训练集来训练模型并使用交叉验证集来监督训练后,才会使用测试集来看看模型的表现。
参考文献:[1]何宇健.Python与神经网络实践[M].北京:电子工业出版社,2018.7