强化学习--DeepQnetwork 的一些改进 - 走看看

zoukankan html css js c++ java

强化学习--DeepQnetwork 的一些改进

Double DQN

算Q值与选Q值是分开的，2个网络。

Multi-step

Dueling DQN

如果更新了，即使有的action没有被采样到，也会更新Q值

Prioritized Reply

Noisy Net

Epsilon Greedy 存在的问题是在一局游戏中，

即使是同一个agent也有可能坐车不不同的选择，这是不合理的,

所以在一局游戏中，我们使用同一个q网络，在不回的回合给q网络

加入noise保证探索性。

查看全文

相关阅读:
POJ 1320 Street Numbers（佩尔方程）
hdu 3292 No more tricks, Mr Nanguo
佩尔方程
 hdu 4825 xor sum(字典树+位运算）
Xor Sum 2（位运算）
数串
 EJS
JQuery性能优化
 常用正则
 JavaScript prototype继承中的问题

原文地址：https://www.cnblogs.com/zle1992/p/10266874.html

Copyright © 2011-2022 走看看