一、深度强化学习( DRLDRLDRL)
传统强化学习:真实环境中的状态数目过多,求解困难。
深度强化学习:将深度学习和强化学习结合在一起,通过深度神经网络直接学习环境(或观察)与状态动作值函数Q(s,a)之间的映射关系,简化问题的求解
Deep Q Network(DQN)
Deep Q Network(DQN):是将神经网络(neural network)和Q-1earning结合,利用神经网络近似模拟函数Q(s,a),输入是问题的状态(e.g.,图形),输出是每个动作a对应的Q值,然后依据Q值大小选择对应状态执行的动作,以完成控制。
神经网络的参数:应用监督学习完成
DQN学习过程
DQN算法流程