几个基本概念
为了接下来的讲解方便,这里先告诉大家几个基本概念。
1回归问题与分类问题
回归(regression)
与分类(classification)
是机器学习中的两大类问题。上面我们举的计算圆形面积的例子就属于回归
问题,即我们的目的是对于一个输入x,预测其输出值y,且这个y值是根据x连续变化的值。分类
问题则是事先给定若干个类别,对于一个输入x,判断其属于哪个类别,即输出一般是离散的,比如本课程将会带大家实践的图片英文字母识别就属于分类问题(判断一个图片中包含的字符属于26个字母中的哪一个)。
本课程主要介绍分类问题,回归问题可能会在后续的课程中向大家介绍。
2 有监督学习和无监督学习
有监督
与无监督
是机器学习方法的两大分类。上面我们举的计算圆形面积的例子就属于有监督学习,因为我们的输入data
既包含输入x
,又包含x
对应的y
,即学习数据已经事先给出了正确答案
。
无监督学习则是只有输入x
。你可能会感到不可思议,正确答案都不告诉我,我要怎么学习呢?确实,无监督学习要更难。无监督学习目前一般用于聚类(cluster)问题
,即给定一批数据,根据这批数据的特点,将其分为多个类别,虽然我并不知道这每个类别所代表的具体含义。比如网络商城的商品推荐算法可能会根据用户的使用习惯,以往的浏览历史等,将用户分为多个类别,同一类别的用户在行为模式上可能比较相似。而事先并不知道最终会划分出多少个类别,每个类别有哪些共同特点。
本课程主要介绍有监督学习,无监督学习可能会在后续课程中向大家介绍。
模型的构建--神经网络
上面我们提到过要让机器“学习”,一般需要:
- 用来解决问题的模型
model
- 学习数据(或者说训练数据)
data
- 让模型
model
通过数据data
学会解决特定问题的学习算法learn