zoukankan      html  css  js  c++  java
  • 强化学习学习笔记(五):值函数估计

    学习目标

    1.了解表查找中函数逼近的动机
    2.了解如何将函数逼近合并到现有算法中
    3.了解函数逼近器和RL算法的收敛特性
    4.了解使用经验重播的批处理

    总结

    1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。
    2.将RL视为有监督的学习问题,以MC或TD目标为标签,当前状态/动作为输入。 通常目标也取决于函数估计器,但是我们只是忽略了它的梯度。 这就是为什么这些方法称为半梯度方法。
    3.挑战:我们拥有非平稳(策略更改,引导)和非iid(时间相关)数据。
    4.许多方法都假定我们的动作空间是离散的,因为它们依赖于计算所有动作的argmax。 大型且连续的动作空间正在持续研究中。
    5.对于Control,几乎没有收敛保证。 对于非线性逼近器,基本上根本没有保证。 但是他们倾向于在实践中工作。
    6.经验重播:将体验存储为数据集,将其随机化,然后重复应用小批量SGD。
    7.稳定非线性函数逼近器的技巧:固定目标。根据前一时间步长中冻结的参数值来计算目标。
    8.对于非个案(连续)案例,函数逼近更为复杂,我们需要放弃折现,并使用“平均奖励”公式。

  • 相关阅读:
    妈妈之歌 The Mom Song 中文字幕
    40个实用的轻量级JavaScript库
    2009超强流行词汇
    60+CSS技巧教程资源大全
    关于zindex的那些事儿
    FF和IE之间7个JavaScript的差异
    IE6 不支持PNG问题
    邮件营销EDM模板制作规范
    css层的定位position、absolute、relative层叠加的五条叠加法则
    IE8的CSS hack
  • 原文地址:https://www.cnblogs.com/feifanrensheng/p/13552469.html
Copyright © 2011-2022 走看看