几句话总结一个算法之DQN - 走看看

zoukankan html css js c++ java

几句话总结一个算法之DQN
- DQN利用深度学习对Q-learning的一个扩展，回顾上篇文章，Q-learning的核心在于Q(s,a)的建模。如果状态s非常复杂，很难通过一张表来存储所有的状态。
- 深度学习正好可以自动提取s的特征，所以我们只需要对Q(s,a)建立一个深度学习网络
- 但是s可能是一个极高维度的向量，a可能只低维度向量(如上下左右)，建模起来可能有点困难
- 解决的办法是，对每个动作a都建一个网络。因为对于每个网络的a输入的是个固定值，没有任何信息量可以忽略掉，问题就可以简化为对每个动作建立一个网络来表示Q(s)
- 更进一步简化，这些网络在特征提取层可以参数共享一起训练，在输出层则输出各自动作的期望奖励，做法类似于现在的多任务学习
- 与Q-learning原理相同，Q(s, a)表示了模型根据历史数据的预测奖励，而Q'(s,a)表示对当前行动的预测奖励。一个好的模型，Q(s,a) 和 Q'(s,a)应该尽量接近，用平方损失函数正好可以表示
- 其他一些trick：experience replay 和异步更新（Double DQN），做法都很直白，有需要可以去了解下
查看全文

相关阅读:
mwutil公用方法库——dateTool
mwutil公用方法库文档——cookieTool
mwutil 公用方法库文档 ——arrayTool
localstorage封装！
github commit 规范
 你好，C++（40）7.1 一切指针都是纸老虎：彻底理解指针
 你好，C++（39）6.4.4 依葫芦画瓢：用C++表达设计结果（下）
你好，C++（38）从问题描述中发现对象的属性和行为 6.4 工资程序成长记：类与对象（上）
你好，C++（37）上车的人请买票！6.3.3 用虚函数实现多态
 你好，C++（36）人参再好，也不能当饭吃！6.3 类是如何面向对象的

原文地址：https://www.cnblogs.com/daniel-D/p/11004923.html

Copyright © 2011-2022 走看看