数据集里面的每一条描述被称为实例或样本。实例或样本的某方面成为属性或特征。属性上的取值成为属性值。一个实例也可以成为特征向量。可以预测出的结果成为标记。拥有标记的实例称为样例。
标记空间或者输出空间。
如果要预测的是离散值,则称为“分类”,若预测的为连续值,则成为“回归”。只有两个类别的成为“二分类”,一个为“正类”,一个成为“反类”。多个类别时为“多分类”。
将训练集中的样本分为若干组称为“聚类”。
分类和回归属于监督学习,聚类属于无监督学习。
训练得到的模型可以很好的适用于新样本,称为“泛化能力”。训练样本越多,泛化能力越强。
归纳学习。
与训练集一致的假设空间称为“版本空间”。
归纳偏好。
“没有免费午餐”定理。
机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。机器学习领域和数据库领域则是数据挖掘的两大支撑。