Asynchronous Methods for Deep Reinforcement Learning(A3C) - 走看看

zoukankan html css js c++ java

Asynchronous Methods for Deep Reinforcement Learning(A3C)

Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

DeepMind rl系列文章之一。

他们提出了一个简单的轻量级框架，使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间，取得了优于以前模型在GPU上的训练结果。另外，该框架也支持连续输出的控制任务。

1.动机

类似于DQN, Double DQN等模型，是一种off-policy的训练方式，需要存储运行过程。他们提出了一种异步框架，能够实现on-policy，能够运用到多种rl模型上，训练时间和硬件要求大大降低，还能提高模型性能。他们自己觉得这个工作做得非常的好。当然，大家也觉得很好。

2.方法

（1）好处：作者指出，训练时间的减少量和并行的数量大约成线性。也就是说，learner越多，时间就越少。

（2）作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上，作者用了RMSProp。

实用程度：5颗星

基础理论：1颗星

创新程度：3颗星

查看全文

相关阅读:
CF做题记录
 MobaXterm左侧没有文件列表，没有SCP，不显示文件夹问题处理
 使用FastJson转换Object时，空字符串丢失的解决办法【转】
fastjson处理复杂对象，参数为null问题定位
 python 数据库连接池
 Git找回add 后，未commit的文件（使用reset -hard 命令导致文件清除）
nginx过滤来自特定IP和user-agent的请求
 Redis实现排行榜(带二位小数点)
系统不做任何优化，性能提升10%的方法
 二(二)、基于注解形式配置bean

原文地址：https://www.cnblogs.com/huangshiyu13/p/7340480.html

Copyright © 2011-2022 走看看