强化学习 Note

zoukankan html css js c++ java

强化学习 Note

1、这篇note来自https://www.zybuluo.com/tinadu/note/629229

1.1、初步

作者认为，DRL可以用于解决通用人工智能问题，通用人工智能包含3部分：

通用任务：解决一般性任务，减少对领域知识的依赖；非线性的神经网络可以表征这一问题；

学习能力：学习分为归纳和演绎；深度学习是归纳，强化学习是演绎；

自省能力：意识和自我认知；通过强化学习的奖赏来获得。

1.2、深度学习

1.3、强化学习

强化学习来自心理学的行为主义理论；

强化学习可以看做是agent和环境的交互；

其中，agent获取状态s(t)，奖励r(t)，执行动作a(t)；

环境根据状态s和动作a(t)，执行策略状态s(t+1)，发出奖励r(t+1)，给出观察值o(t+1)。

RL的核心是价值函数的贝尔曼方程，是DP中的标准状态转移方程。

策略(Policy)函数、价值(Value)函数、环境(Model)函数是RL和DL结合的关键。

1.4、二者的融合

策略函数、价值函数、环境函数都是很难枚举的，通过深度学习来估算这些函数。

1.5、强化学习的三种算法

policy-based 方法；value-based方法；model-based方法

是不是可以认为：

DP既可以policy-based，value-based；

MC/TD/TD(lambda)都是value-based

值函数近似是value-based；策略梯度算法是policy-based；

那么为什么要用policy-based，不直接用valued-based呢？

SARSA是同策略TD控制算法

Q-learning是异策略的TD控制算法

DQN值函数估计算法

A3C策略梯度算法

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com

查看全文

相关阅读:
iOS微信支付集成
 iOS支付宝支付集成
 JavaScript原生实现《贪吃蛇》
安装tensorflow的最简单方法(Ubuntu 16.04 && CentOS)
Eclipse 插件管理
 settings.xml 文件配置
 Spring MVC 起步
 机器学习: KNN--python
Python: PS 图像调整--亮度调整
 计算机设计思想 —— 代理（proxy）

原文地址：https://www.cnblogs.com/ai1024/p/7755886.html

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！