强化学习（Reinforcement Learning, RL）

zoukankan html css js c++ java

强化学习（Reinforcement Learning, RL）

        强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
       强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。
       强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数   。
       强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。

Kinds of RL Algorithms

REF

https://baike.baidu.com/item/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/2971075?fr=aladdin

https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#id20

查看全文

相关阅读:
读取.properties配置文件并保存到另一个.properties文件内
 kafka启动报错:另一个程序正在使用此文件，进程无法访问。
使用Spring boot 嵌入的tomcat不能启动： Unregistering JMX-exposed beans on shutdown
java把map转json
java代码生成xml 报错:HIERARCHY_REQUEST_ERR: 尝试在不允许的位置插入节点。
查询数据库时mapper报错:It's likely that neither a Result Type nor a Result Map was specified.
获取session
Apache服务器运维笔记(2)----使用apxs来进行编译安装 mod_txt 模块
 Apache服务器运维笔记(2)----使用<IfDefine>容器实现不同的配置
 Apache服务器运维笔记(1)----运行多个Apache服务器

原文地址：https://www.cnblogs.com/emanlee/p/15505728.html