Reinforcement Learning in Continuous Time and Space

zoukankan html css js c++ java

Reinforcement Learning in Continuous Time and Space
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Neural Computation, no. 1 (2000): 219-245

Abstract

　　本文提出了一种用于连续时间动态系统的强化学习框架，而没有时间、状态和动作的离散先验。基于哈密尔顿-雅各比-贝尔曼(HJB)方程的无穷视野折扣奖励问题，我们推导了使用函数近似器估计值函数和改进策略的算法。值函数估计的过程被表示为最小化TD误差的连续时间形式。基于反向欧拉近似和指数资格迹的更新方法也被推导得出，并显示了它们与常规残差梯度TD(0)和TD(λ)算法的对应关系。为了改进策略，制定了两种方法——连续的actor-critic方法和基于价值梯度的贪婪策略。作为后者的特例，使用价值梯度和输入增益模型的非线性反馈控制规则也被推导得出。在基于HJB的框架中还制定了优势更新(一种先前导出的无模型算法)。

　　首先在非线性控制任务中测试所提出算法的性能，该任务是使摆锤以有限的扭矩向上摆动。在仿真中显示：(1) 通过连续的actor-critic方法完成任务所需的次数比传统的离散actor-critic方法少了几倍；(2) 在连续的策略更新方法中，具有已知或学习的动态模型的基于价值梯度的策略的性能要比actor-critic方法好几倍；(3) 使用指数资格迹的值函数更新比基于欧拉近似的更新更有效且更稳定。然后在更高维度的任务中测试算法：车杆摆动。使用基于价值梯度的策略和学习的动态模型，可以在数百次试验中完成此任务。

1 Introduction

　　RL算法的TD系列(Barto, Sutton, ＆ Anderson, 1983; Sutton, 1988; Sutton ＆ Barto, 1998)提供了一种控制和决策问题的有效方法，对于这些问题而言，最优解决方案在分析上不可用或难以获得。许多成功解决大型问题的应用程序，例如棋盘游戏(Tesauro, 1994)，调度问题(Crites & Barto, 1996; Zhang & Dietterich, 1996; Singh & Bertsekas, 1997)以及机器人导航(Mataric, 1994)的报道(例如，有关回顾，请参见Kaelbling, Littman, & Moore, 1996; Sutton & Barto, 1998)。然而，到目前为止，RL研究的进展主要受制于问题的表述，在该问题中，基于对系统离散状态的观察，在离散时间步骤中采取了离散动作。

　　许多有趣的现实世界控制任务，例如驾驶汽车或骑滑雪板，都需要连续且光滑的动作，以响应高维实值感官输入。在将RL用于连续问题时，最常见的方法是首先离散化时间、状态和动作，然后将RL算法应用于离散随机系统。但是，这种离散化方法具有以下缺点：
- 使用粗略离散化时，控制输出不平滑，导致性能不佳。
- 使用精细离散化时，状态数和迭代步骤数变得非常大，这不仅需要大容量的存储器存储，而且还需要进行许多学习尝试。
- 为了使状态数易于管理，必须使用先验知识对变量进行精心的划分。
通过使用适当的函数近似器(Gordon, 1996; Sutton, 1996; Tsitsiklis ＆ Van Roy, 1997)，自适应状态划分和聚集方法(Moore, 1994; Singh, Jaakkola, ＆ Jordan, 1995; Asada, Noda & Hosoda, 1996; Pareigis, 1998)，以及多时间尺度方法(Sutton, 1995)。

　　在本文中，我们考虑了一种替代方法，其中为连续时间动态系统制定了学习算法，而无需求助于时间、状态和动作的显式离散化。连续框架具有以下可能的优点：
- 可以获得平滑的控制性能。
- 利用价值函数的梯度可以导出一种有效的控制策略(Werbos, 1990)。
- 不需要猜测如何划分状态、动作和时间。寻找合适的粒度是函数近似和数值积分算法的任务。
　　已经尝试了将RL算法扩展到连续情况。Bradtke (1993)给出了具有线性动态和二次成本的离散时间连续状态系统的Q学习算法的收敛结果。Bradtke和Duff (1995)推导了用于连续时间离散状态系统(半马尔可夫决策问题)的TD算法。Baird (1993)提出了一种"优势更新"方法，该方法通过扩展Q学习来用于连续时间连续状态问题。

　　当我们考虑连续时间系统中的优化问题时，汉密尔顿-雅各比-贝尔曼(HJB)方程是离散时间系统的贝尔曼方程的连续时间对等物，它提供了可靠的理论基础(例如，参见Bertsekas (1995)和Fleming ＆ Soner (1993)。已经使用基于网格的时空离散化方法研究了满足HJB方程的最优值函数的方法(Peterson, 1993)，并证明了将网格大小设为零的收敛证明(Munos, 1997; Munos & Bourgine, 1998)。然而，在高维状态空间中直接实现这种方法是不切实际的。Dayan和Singh (1996)提出了一种使用函数近似器的基于HJB的方法。他们提出了在不学习值函数本身的情况下学习值函数的梯度的方法，但是该方法仅适用于非折扣奖励问题。

　　本文提出了一套基于HJB方程的非线性动力学系统的RL算法，用于求解无限视野折扣奖励问题。设计了一系列模拟，以与连续函数近似器一起使用时评估其有效性。

　　我们首先考虑在最小化TD误差的连续时间形式的基础上学习值函数的方法。通过使用单个步骤或按指数加权的资格迹来得出更新算法。还显示了这些算法与离散情况的残差梯度(Baird, 1995)，TD(0)和TD(λ)算法(Sutton, 1988)的关系。接下来，我们使用价值函数制定改进策略的方法：连续actor-critic方法和基于价值梯度的策略。具体来说，当模型可用于系统动态的输入增益时，我们导出适合实时实现的闭式反馈策略。还讨论了它与"优势更新"(Baird, 1993)的关系。

　　首先在标准化的高斯基函数网络代表值函数，策略和模型的非线性控制任务中，用有限转矩的摆进行摆动的非线性控制任务中评估了所提出方法的性能(Atkeson, 1994; Doya, 1996)。我们测试(1) 基于离散actor-critic，连续actor-critic和基于价值梯度的方法的性能；(2) 执行价值函数更新方法；(3) 学习参数的影响，包括动作成本，探索噪声和奖励函数形状。然后我们在一个更具挑战性的任务中测试算法，即车杆摆动(Doya, 1997)，其中状态空间是高维的，而系统输入增益则取决于状态。
查看全文

相关阅读:
Maven学习--- 搭建多模块企业级项目
 Spring @Transactional ——事务回滚
 Spring事务异常回滚，捕获异常不抛出就不会回滚
 JVM调优总结（一）-- 堆和栈的基本概念
 Java中常见数据结构：list与map -底层如何实现
 hadoop 2.7.1安装和配置
 Hadoop基本开发环境搭建（原创，已实践）
Hadoop下添加节点和删除节点
 iOS应用之间跳转
 iOS开发技巧

原文地址：https://www.cnblogs.com/lucifer1997/p/14785162.html