机器学习中强化学习与监督学习、无监督学习区别

zoukankan html css js c++ java

机器学习中强化学习与监督学习、无监督学习区别

监督学习（Supervised learning）：

监督学习即具有特征（feature）和标签（label）的，即使数据是没有标签的，也可以通过学习特征和标签之间的关系，判断出标签——分类。

简言之：提供数据，预测标签。比如对动物猫和狗的图片进行预测，预测label为cat或者dog。

通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。

eg.分类和回归问题

无监督学习（Unsupervised learning）：

无监督学习即只有特征，没有标签，只有特征，没有标签的训练数据集中，通过数据之间的内在联系和相似性将他们分成若干类——聚类。根据数据本身的特性，从数据中根据某种度量学习出一些特性。

eg.比如一个人没有见过恐龙和鲨鱼，如果给他看了大量的恐龙和鲨鱼，虽然他没有恐龙和鲨鱼的概念，但是他能够观察出每个物种的共性和两个物种间的区别的，并对这两种动物予以区分。

简言之：给出数据，寻找隐藏的关系。

半监督学习（Semi-Supervised learning）：

半监督学习使用的数据，一部分是标记过的，而大部分是没有标记的，和监督学习相比较，半监督学习的成本较低，但是又能达到较高的准确度，即综合利用有类标的和没有类标的数据，来生成合适的分类函数。

简言之：少部分标记，大部分未知

强化学习（Reinforcement learning）：

强化学习与半监督学习类似，均使用未标记的数据，但是强化学习通过算法学习是否距离目标越来越近，我理解为激励与惩罚函数。类似生活中，女朋友不断调教直男友变成暖男。

简言之：通过不断激励与惩罚，达到最终目的。

区别：

（1）监督学习有反馈，无监督学习无反馈，强化学习是执行多步之后才反馈。

（2）强化学习的目标与监督学习的目标不一样，即强化学习看重的是行为序列下的长期收益，而监督学习往往关注的是和标签或已知输出的误差。

（3）强化学习的奖惩概念是没有正确或错误之分的，而监督学习标签就是正确的，并且强化学习是一个学习+决策的过程，有和环境交互的能力（交互的结果以惩罚的形式返回），而监督学习不具备。

----------------------------------- 心之所向，素履所往；生如逆旅，一苇以航。 ------------------------------------------

查看全文

相关阅读:
把C语言的指针按在地上摩擦！
组合索引相关介绍
 ConcurrentModificationException异常
 chat和varchar的区别？
二进制部署K8S集群（二十三）addons之安装部署dashboard
二进制部署K8S集群（二十二）addons之安装部署ingress
二进制部署K8S集群（二十一）addons之flanneld优化SNAT规则
 二进制部署K8S集群（二十）K8s服务暴露之NodePort型Service
二进制部署K8S集群（十九）addons之安装部署coredns
二进制部署K8S集群（十八）addons之flannel三种模型安装部署详解

原文地址：https://www.cnblogs.com/wzw0625/p/ML.html