强化学习基础概念理解

zoukankan html css js c++ java

强化学习基础概念理解

RL原理：
先尝试做出一些行为，得到一个结果，通过判断这个结果是对是错来对之前的行为进行反馈

与supervised learning 的区别主要是：
1. RL没有label指导在什么情况下做出什么样的行为，只有一个作出一系列行为后最终反馈回来的reward signal，并通过这个signal判断这个行为是好是坏。
2. RL的学习结果有延时，可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
3. RL的输入总是处于变化中的，而监督学习的输入是固定的（独立分布的）。
4. RL不需要正确的输入/输出对，不需要精确校正优化的行为，它注重于在线规划，在exploration（探索未知）和exploitation（应用现有知识）之间平衡。

RL Agent 包含：
1. policy: agent's behavior function //策略： state 2 action 的映射
       有两种表达： 1）Deterministic policy 确定策略：某state下一定会执行行为a
                   2）Stochastic policy 随机策略：某种state下执行某种行为a的概率

2. value function: how good is each state and/or action //价值函数：预测可能获得的reward的期望，用以衡量当前state的好坏。

3. model: agent's representation of the environment //模型：预测环境下一步会发生什么变化，从而预测agent即将进入的state以及接收到的reward是什么。
                       包括预测下一步state的模型和下一步reward的模型。

（它们并不一定同时存在）

RL是一种试错的学习方式（trial-and-error）。

Exploration的含义：放弃一些已知的reward信息，而去尝试一些新的选择。
Exploitation的含义：根据已知信息最大化reward。

作者：笙玄羽Adrian

出处： http://www.cnblogs.com/muhanxiaoquan/>

关于作者：专注深度学习，自然语言处理，请多多赐教！

本文为博主原创文章，欢迎转载，但请说明出处，必须保留此段声明，且在文章页面明显位置给出，原文链接如有问题，可邮件（coreofkir@qq.com）咨询.

查看全文

相关阅读:
Postman提取接口返回值设置变量
 Python-浅拷贝与深拷贝
 Python列表
 typeorm查询两个没有关联关系的实体
 springboot去掉数据源自动加载
 docker搭建redis集群
 实习工作记录（一）大文件上传vue+WebUploader
js重点之promise
css重点
 git简单命令整理

原文地址：https://www.cnblogs.com/muhanxiaoquan/p/7251060.html