监督式学习是由一组人工标记的数据推测出假设函数的学习方法。
目标变量是连续的(认为价格是连续的),学习问题就是回归问题;如果目标变量是离散的,学习问题就称为分类问题。
与监督式学习对应的非监督式学习,则是在一群未标记的数据上做数据处理(可以理解为只有x值,没有y值)
如何区分监督学习(supervised learning)和非监督学习(unsupervised learning)
机器学习的常用方法中,我们知道一般分为监督学习和非监督学习。(当然还有半监督)
l 监督学习:监督学习,简单来说就是给定一定的训练样本(这里一定要注意,这个样本是既有数据,也有数据相对应的结果),利用这个样本进行训练得到一个模型(可以说就是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题。简单做一个区分,分类就是离散的数据,回归就是连续的数据。
l 非监督学习:同样,给了样本,但是这个样本是只有数据,但是没有其对应的结果,要求直接对数据进行分析建模。
比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能 把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。无监督 学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以 开始工作了[2]
对于问题,我可以这样跟大家说。买房的时候,给了房屋面积以及其对应的价格,进行分析,这个就叫做监督学习;但是给了面积,没有给价格,就叫做非监督学习。
监督,意味着给了一个标准作为“监督”(或者理解为限制)。就是说建模之后是有一个标准用来衡量你的对与错;非监督就是没有这个标准,对数据进行聚类之后,并没有一个标准进行对其的衡量。