监督学习
监督学习是指我们给予算法一个数据集,这个数据集可以是以往相同类型问题的结果,或者绝对正确的经验答案的集合,也就是统计中常说的样本,并且这些数据都是有其固有的“正确答案”,然后算法根据这个集合做出对当前相同类型的问题的结果预测。绝大部分的情况我们给予算法的数据集都是离散的数据。所谓监督(supervised),就是利用已有的正确样本(“特征-结果”对)约束了算法的预测。
简单的说就是你看着这些练习册和参考答案给我学会了,然后给我根据关系类比出类似的问题答案。
针对于不同类型的问题,需要给出不同类型的结果,所以对于这些问题分为:
- 回归问题:结果是连续的,对此可能是线性的,可能是非线性的。(一个连续值的结果)
- 分类问题:结果是离散的(一个离散值的结果)
对于这两类问题,一般的判断方法,当你最后需要获得的预测结果的值域是连续的,可以认为是回归问题,最后需要获得的结果是离散的,例如0 or 1,或者有限个数类型的结果,则就属于分类问题。很多时候在自然语言中会更好理解。
无监督学习
对于无监督学习,我们依然给予算法一个数据集,但是这个数据集不具有明确的“特征-结果”对,或者说就是一堆较为单纯无标签的数据。这时候我们就需要算法对这堆数据进行自我分析,归类,整理。
- 聚类算法:算法最终就会告诉我们哪些数据是一类的,哪些数据是另一个类的,就是在我们并没有告知他这个数据集特性以及分类方式的前提下,让算法给出合理有效的分类方式。
- 区分分类和聚类的区别:关于分类,是指给出已知标签,将数据池子中的数据根据已知标签分门别类,而聚类是指没有明确的分类标签,自己更具数据特征给出区分方式。
- 鸡尾酒会算法:关于原课中提到的这个算法其实也类似于聚类算法,但是更像是说是从复杂的重复集合型数据中根据特性剥离出单位个体的数据,就像是一个重复集合数据里有{A,b},另一个里是{a,B},这里我们认为Aa是一个东西,所以最后算法会更具两个集合型数据的特性,为我们剥离出Aa和Bb出来。