zoukankan      html  css  js  c++  java
  • 强化学习学习笔记(五):值函数估计

    学习目标

    1.了解表查找中函数逼近的动机
    2.了解如何将函数逼近合并到现有算法中
    3.了解函数逼近器和RL算法的收敛特性
    4.了解使用经验重播的批处理

    总结

    1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。
    2.将RL视为有监督的学习问题,以MC或TD目标为标签,当前状态/动作为输入。 通常目标也取决于函数估计器,但是我们只是忽略了它的梯度。 这就是为什么这些方法称为半梯度方法。
    3.挑战:我们拥有非平稳(策略更改,引导)和非iid(时间相关)数据。
    4.许多方法都假定我们的动作空间是离散的,因为它们依赖于计算所有动作的argmax。 大型且连续的动作空间正在持续研究中。
    5.对于Control,几乎没有收敛保证。 对于非线性逼近器,基本上根本没有保证。 但是他们倾向于在实践中工作。
    6.经验重播:将体验存储为数据集,将其随机化,然后重复应用小批量SGD。
    7.稳定非线性函数逼近器的技巧:固定目标。根据前一时间步长中冻结的参数值来计算目标。
    8.对于非个案(连续)案例,函数逼近更为复杂,我们需要放弃折现,并使用“平均奖励”公式。

  • 相关阅读:
    一分钟学会 ConstraintLayout 之从属性角度理解布局
    halcon采集一幅图像
    halcon连续采集图像
    LinearLayout布局
    Html input 标签
    Html 标签种类
    Html div 标签
    Html span 标签
    Html h1-h6 标签
    Html br 标签
  • 原文地址:https://www.cnblogs.com/feifanrensheng/p/13552469.html
Copyright © 2011-2022 走看看