强化学习算法DQN

zoukankan html css js c++ java

强化学习算法DQN

１　DQN的引入

　　由于q_learning算法是一直更新一张q_table，在场景复杂的情况下，q_table就会大到内存处理的极限，而且在当时深度学习的火热，有人就会想到能不能将从深度学习中借鉴方法，将深度学习的方法应用到强化学习中。13年，谷歌的deepmind团队就发表了关于DQN算法的论文，促进了强化学习的发展，扩展了强化学习的应用场景。

２　将深度学习应用到强化学习的挑战

　　将深度学习应用到强化学习上主要有两大挑战，下面具体说明这两种挑战是什么

2.1 第一个挑战是关于样本的分布：

　　深度学习能够收敛的一大主要原因就是数据集要求独立同分布，只有数据集独立同分布，运用深度学习训练出来的模型才能更好的拟合数据集中潜在的模型，才能得到理想的结果。但是强化学习是从reward中学习，从一系列高度相关的状态中学习，而且强化学习中的智能体随着算法学习到新的行为，数据分布可能会发生改变，存在不能收敛的结果。想要将深度学习算法应用到强化学习中就必须解决强化学习的问题，切断状态的相关性，使数据集的分布稳定。

2.2 第二个挑战是关于学习的方式：

　　深度学习是标准的监督式学习，在训练之前，想要训练得到的理想模型的目标就已经暗中存在，深度学习通过一次次的迭代，使算法收敛，寻到理想的模型。然而强化学习是从稀疏，有噪声，有延迟的标量的奖励信号中学习，想要将深度学习的算法应用用强化学习中就必须为强化学习设计每一步更新迭代的目标。

３关于上述挑战的两个解决办法

3.1 解决样本分布问题

　　谷歌deepmind的这篇论文中介绍了一种解决样本分布问题的方法：经验重放机制(repaly mechanism)。

　　首先agent会被初始化一个状态s，将状态s输入到评价网络中(一个神经网络，后文介绍)，输出每个动作的q值，agent通过q值和探索利用(exploration and exploitation)算法来选择在本状态执行的行动action，最后将s,action作用与环境中，环境会反馈给agent此状态执行action的reward和下一个状态s'。此时就到了一个序列(s, a, r, s')，其中s 为本次状态，a 为状态s时的执行的动作，r 为在状态s执行动作a环境反馈给agent的奖赏，s' 是下一个状态。一个序列(s , a, r, s')就构成了一个训练样本。

　　首先规定经验池的大小为N，即只有N个最新的序列存在经验池中，大于N的序列会重头覆盖经验池中的样本。在每次更新神经网络参数时就用经验池中数据。

　　经验池的存在，使高度相关的一系列的状态变成了一个个离散的数据样本，减小了训练的方差，同时使样本的分布趋于稳定，有利于算法的收敛，agent还能像人一样，可以从自己的历史经验中学习。

3.2 解决有监督问题

　　为了解决强化学习和有监督学习的深度学习之间的矛盾，这篇论文中设计了两个神经网络，

　　一个神经网络为预测网络：输入本次的状态，即样本序列中的第一个元素s，输出每个动作预测的q值，agent就是利用输出的每个动作的q值来决定本状态要执行的动作，本网络的参数随时更新。　　

　　另一个网络为评价网络：输入为下一个状态，即样本序列中的第四个元素s'，输出为状态s'是每个动作的q值(q_next)，然后利用贝尔曼方程(q_target=r+γ*max(q_next))计算出状态s时执行动作a的目标q值。

　　评价网络的输出经过贝尔曼方程，计算结果的目标q值可作为预测网络的label，这样就解决了有监督的深度学习和没有监督的强化学习之间的矛盾。

　　为了抑制状态之间相关性的问题，评价网络的参数并不会实时更新，在一定步数之后，预测网络会将自己的参数复制为评价网络。

４　算法流程

4.1 算法的整体逻辑

4.2 算法的学习逻辑

查看全文

相关阅读:
什么是封装？
table
POM文件
 Maven环境的搭建
 什么是maven
J2EE的三层经典结构
 DOM对象和jQuery对象对比
 jQuery常用选择器分类
 什么是JQuery？它的特点是什么？
jQuery准备函数语法

原文地址：https://www.cnblogs.com/swenwen/p/10701066.html

强化学习算法DQN

１ DQN的引入

２ 将深度学习应用到强化学习的挑战

2.1 第一个挑战是关于样本的分布：

2.2 第二个挑战是关于学习的方式：

３ 关于上述挑战的两个解决办法

3.1 解决样本分布问题

3.2 解决有监督问题

４ 算法流程

4.1 算法的整体逻辑

4.2 算法的学习逻辑

１　DQN的引入

２　将深度学习应用到强化学习的挑战

３关于上述挑战的两个解决办法

４　算法流程