zoukankan      html  css  js  c++  java
  • 强化学习 Note

     

    1、这篇note来自https://www.zybuluo.com/tinadu/note/629229

    1.1、初步

    作者认为,DRL可以用于解决通用人工智能问题,通用人工智能包含3部分:

    通用任务:解决一般性任务,减少对领域知识的依赖;非线性的神经网络可以表征这一问题;

    学习能力:学习分为归纳和演绎;深度学习是归纳,强化学习是演绎;

    自省能力:意识和自我认知;通过强化学习的奖赏来获得。

    1.2、深度学习

    1.3、强化学习

    强化学习来自心理学的行为主义理论;

    强化学习可以看做是agent和环境的交互;

    其中,agent获取状态s(t),奖励r(t),执行动作a(t);

    环境根据状态s和动作a(t),执行策略状态s(t+1),发出奖励r(t+1),给出观察值o(t+1)。

    RL的核心是价值函数的贝尔曼方程,是DP中的标准状态转移方程。

    策略(Policy)函数、价值(Value)函数、环境(Model)函数是RL和DL结合的关键。

    1.4、二者的融合

    策略函数、价值函数、环境函数都是很难枚举的,通过深度学习来估算这些函数。

    1.5、强化学习的三种算法

    policy-based 方法;value-based方法;model-based方法

    是不是可以认为:

    DP既可以policy-based,value-based;

    MC/TD/TD(lambda)都是value-based

    值函数近似是value-based;策略梯度算法是policy-based;

    那么为什么要用policy-based,不直接用valued-based呢?

    SARSA是同策略TD控制算法

    Q-learning是异策略的TD控制算法

    DQN值函数估计算法

    A3C策略梯度算法

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    JQuery上传插件Uploadify使用详解
    jquery easyui datagrid使用参考
    easyui datagrid使用(好)
    灵活运用 SQL SERVER FOR XML PATH
    C# HttpRequest 中文编码问题
    echarts简单使用
    [bootstrap] 修改字体
    css :not 选择器
    [win7] 带网络的安全模式,启动QQEIMPlatform第三方服务
    [mysql] 添加用户,赋予不同的管理权限
  • 原文地址:https://www.cnblogs.com/ai1024/p/7755886.html
Copyright © 2011-2022 走看看