zoukankan      html  css  js  c++  java
  • 强化学习 Note

     

    1、这篇note来自https://www.zybuluo.com/tinadu/note/629229

    1.1、初步

    作者认为,DRL可以用于解决通用人工智能问题,通用人工智能包含3部分:

    通用任务:解决一般性任务,减少对领域知识的依赖;非线性的神经网络可以表征这一问题;

    学习能力:学习分为归纳和演绎;深度学习是归纳,强化学习是演绎;

    自省能力:意识和自我认知;通过强化学习的奖赏来获得。

    1.2、深度学习

    1.3、强化学习

    强化学习来自心理学的行为主义理论;

    强化学习可以看做是agent和环境的交互;

    其中,agent获取状态s(t),奖励r(t),执行动作a(t);

    环境根据状态s和动作a(t),执行策略状态s(t+1),发出奖励r(t+1),给出观察值o(t+1)。

    RL的核心是价值函数的贝尔曼方程,是DP中的标准状态转移方程。

    策略(Policy)函数、价值(Value)函数、环境(Model)函数是RL和DL结合的关键。

    1.4、二者的融合

    策略函数、价值函数、环境函数都是很难枚举的,通过深度学习来估算这些函数。

    1.5、强化学习的三种算法

    policy-based 方法;value-based方法;model-based方法

    是不是可以认为:

    DP既可以policy-based,value-based;

    MC/TD/TD(lambda)都是value-based

    值函数近似是value-based;策略梯度算法是policy-based;

    那么为什么要用policy-based,不直接用valued-based呢?

    SARSA是同策略TD控制算法

    Q-learning是异策略的TD控制算法

    DQN值函数估计算法

    A3C策略梯度算法

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    git 使用详解(6) 撤消操作
    git 使用详解(7) 远程仓库的使用
    git 使用详解(8) 分支HEAD
    PHP抓取网页内容的方法
    PHP的feof()方法需要注意的地方
    PHP获取变量的变量名的一段代码的bug
    关于php的unset
    if、while中变量的作用域问题
    codeigniter的url重写问题(去掉index.php路由)
    PHP书写规范 PHP Coding Standard
  • 原文地址:https://www.cnblogs.com/ai1024/p/7755886.html
Copyright © 2011-2022 走看看