zoukankan      html  css  js  c++  java
  • 初识ActorCritic

    什么是Actor-Critic

    • 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。
    • 现在看看Actor-Critic的论文继续了解一下。

    Critic-Only and Actor-Only

    • 这篇文章之前的算法是Critic-Only, or Actor-Only。
    • Actor-only:使用policy gradient,通过simulation来评估gradient好坏。
      • 缺点:主要是estimation上的问题。
        • gradient estimators可能由很大的方差variance。
        • A new gradient is estimated independently of past estimates. 也就是说对gradient的评估并没有很好的用过去的经验,并没有很好的“learning”
    • Critic-only:只有value function approximation,学习近似Bellman equation的solution, 希望学习出一个near-optimal policy。
      • 优点:
        • 也许可以在构造一个"good" approximation of value function上成功
        • 和actor-only相比收敛快 (due to variance reduction)。
      • 缺点:
        • 在得到一个near-optimality的resulting policy上缺少可靠的保证。
        • Convergence is guaranteed in very limited settings.

    Brief Introduction of Actor-Critic

    • image-20211220144635858
      1. 用策略与环境互动。
      2. Critic:根据互动结果,用TD或者MC学习Value值。
      3. Agent:然后用这个Value值来policy gradient,更新policy。
      4. 用更新了的policy再去环境互动。

    代码

    • 看莫烦python的代码

    Reference

  • 相关阅读:
    resourceTree PuTTY/Plink
    error: src refspec 202110221_v1_master does not match any error: failed to push some refs to 'https://gitee.com/simadongyang/m9v1.0'
    go笔记10
    go协程池
    go笔记08
    go笔记06
    go笔记04
    go笔记03
    Git常用命令一
    ajax调用实例
  • 原文地址:https://www.cnblogs.com/xuwanwei/p/15720895.html
Copyright © 2011-2022 走看看