假设有以下面积和房屋价格的数据集:
可以在坐标中画出数据的情况:
就是基于这样一个数据集,假定给出一个房屋的面积,如何预测出它的价格?很显然就是我们只需建立一个关于房屋面积的函数,输出就是房屋的价格。
所以引出监督学习的概念:给定训练集X,学习出一个函数h:X→Y,使得函数h(x)能够较好地对于Y做出预测。由于历史习惯原因,常常把h称为假设(hypothesis).
当我们要预测的值Y是连续连续值的时候,则学习出函数h的过程就被称为回归问题(regression problem),当预测值Y是离散值的时候,相应的学习过程就称为分类问题(classification problem)。