zoukankan      html  css  js  c++  java
  • Asynchronous Methods for Deep Reinforcement Learning(A3C)

    Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

    DeepMind rl系列文章之一。

    他们提出了一个简单的轻量级框架,使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间,取得了优于以前模型在GPU上的训练结果。另外,该框架也支持连续输出的控制任务。

    1.动机

    类似于DQN, Double DQN等模型,是一种off-policy的训练方式,需要存储运行过程。他们提出了一种异步框架,能够实现on-policy,能够运用到多种rl模型上,训练时间和硬件要求大大降低,还能提高模型性能。他们自己觉得这个工作做得非常的好。当然,大家也觉得很好。

    2.方法

    (1)好处:作者指出,训练时间的减少量和并行的数量大约成线性。也就是说,learner越多,时间就越少。

    (2)作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上,作者用了RMSProp。

    实用程度:5颗星

    基础理论:1颗星

    创新程度:3颗星

  • 相关阅读:
    mac终端命令
    转:使用 Spring Data JPA 简化 JPA 开发
    一步步学习 Spring Data 系列之JPA(一)
    一步步学习 Spring Data 系列之JPA(二)
    xmlplus 组件设计系列之零
    前端框架沉思录(上)
    xmlplus 组件设计系列之十
    xmlplus 组件设计系列之九
    xmlplus 组件设计系列之八
    xmlplus 组件设计系列之七
  • 原文地址:https://www.cnblogs.com/huangshiyu13/p/7340480.html
Copyright © 2011-2022 走看看