强化学习入门笔记系列——DDPG算法

zoukankan html css js c++ java

强化学习入门笔记系列——DDPG算法
本系列是针对于DataWhale学习小组的笔记，从一个对统计学和机器学习理论基础薄弱的初学者角度出发，在小组学习资料的基础上，由浅入深地对知识进行总结和整理，今后有了新的理解可能还会不断完善。由于水平实在有限，不免产生谬误，欢迎读者多多批评指正。如需要转载请与博主联系，谢谢

DDPG算法基本概念

什么是DDPG算法？

深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）虽名为“策略梯度”，实际上是Actor-Critic的一种经典算法。除了用于动作选择的策略网络，它还大量借鉴了DQN的思想并构建价值网络来间接引导策略网络的更新。
在这里我们可以将DDPG分为两部分，一是作为“演员”（Actor）的策略网络，二是作为“评论家”的价值网络。策略网络利用策略梯度方法进行更新，但它不是直接与环境交互来计算目标函数，而是通过价值网络估计的Q值来调整自己的网络参数( heta)。也就是说“演员”并不直接与提供奖励的观众（环境）接触，而是利用价值网络间接地获得对动作的评价。与此同时，价值网络部分可以看作经典的DQN模型，它一方面与环境交互，利用reward来更新自己Q网络的参数(w)；另一方面它作为评委需要估算当前状态和动作的Q值来引导策略网络的更新。由于借鉴了DQN中的一些思想，DDPG中的策略网络和价值网络也都各分为两部分，即一个用于每步更新的当前网络和一个用于计算预测的Q值及动作的目标（target）网络，后者每隔一段时间从当前网络中复制参数，加起来总共四个网络。这样可以尽量保证预测时可以得到比较稳定的Q值，有助于模型的收敛。

DDPG算法有什么特点？

深度确定性策略梯度，顾名思义，首先是利用了神经网络来逼近Q函数，其次它是一个确定性策略，也就是对于任意状态，输出当前最佳的动作，这里是一个确定的动作，而不是一个包含概率分布的动作集。最后它是引入了策略梯度的方法来执行动作选择。

如何实现确定性策略？

策略网络中输出位置我们可以添加一层以tanh为激活函数的节点，它实现对于动作空间的压缩，输入一个浮点数，它都会生成[-1,1]之间的值。然后根据动作空间的实际要求，将输出值随比例扩大即可。这样同时解决了实现执行动作连续性与和确定性的问题。

参考资料：
1. DataWhale组队学习资料——《强化学习》王琦杨毅远江季著
2. 《强化学习》第二版 Richard S. Sutton, Andrew G. Barto 等著
3. 深度强化学习——从DQN到DDPG https://zhuanlan.zhihu.com/p/28549596
查看全文

相关阅读:
360给腾讯造的盗梦空间
 C 语言运算符优先级
 CorelDraw, Adobe Illustrator 转换到 Photoshop 形状路径
 用户体验经典解释
 禁用Windows XP的自动播放功能
 ObjectiveC ARC下的内存管理（一）
ARC下的内存管理（二）对象及成员的引用关系
 天天撞墙
 PS: 操作不实时显示的解决办法
 摩托罗拉 Milestone新手刷机教程

原文地址：https://www.cnblogs.com/liugd-2020/p/13945521.html

强化学习入门笔记系列——DDPG算法

DDPG算法基本概念

什么是DDPG算法？

DDPG算法有什么特点？

如何实现确定性策略？