zoukankan html css js c++ java

DRL强化学习：

IT博客网 > 域名隐私保护免费

DRL前沿之：Hierarchical Deep Reinforcement Learning

来源：互联网发布：域名隐私保护免费编辑：IT博客网时间：2019/08/26 23:49

1 前言

如果大家已经对DQN有所了解，那么大家就会知道，DeepMind测试的40多款游戏中，有那么几款游戏无论怎么训练，结果都是0的游戏，也就是DQN完全无效的游戏，有什么游戏呢？
这里写图片描述
比如上图这款游戏，叫做Montezuma’s Revenge。这种游戏类似超级玛丽，难在哪里呢？需要高级的策略。比如图中要拿到钥匙，然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像感知这些内容。感知不到，那么这种游戏也就无从解决。

那么这篇文章：
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

时间：2016年4月20号
来源： arXiv.org

尝试解决这种问题。

2 文章思路

它的思路很简单，就是弄一个两个层级的神经网络，顶层用于决策，确定下一步的目标，底层用于具体行为。
这里写图片描述

不得不说，这个想法显而易见（本人也想过啦）但是，问题的关键是

如何确定内在的目标？？？

作者在paper中说了这么一段话：
“We assume having access to an object detector that provides plausible object candidates.”
说白了就是人工给定目标。然后再来训练。（本质上就是嵌套两个DQN）

那就没什么意思了。

这样从直观感觉可以训练出来。

但是意义就比较小了。

小结

这篇文章比较夸大的提出层次DRL来解决稀疏反馈的问题，但是实际上并不算真正的解决，中间的目标给定太过人工，不具备通用性。也不太可能像作者说的专门为这些游戏开发一个游戏目标物体检测算法。

但是，在否则这篇文章价值的同时，它也是有一定意义的。比如对于自动驾驶汽车，之前Nvidia完全的端到端训练实现自动驾驶，但是如果中间加入一个物体检测作为顶层决策环节，或许可以大大提高控制水平。

而对于image caption这种问题，也是同样的道理。先物体检测，再进入RNN输出文字描述。

不过，个人却不喜欢这种做法。虽然会work，但不智能。

�0 �0

【强化学习算法 15】h-DQN

这里的h-DQN是一种hierarchical deep reinforcement learning方法。

原文传送门：

Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in neural information processing systems. 2016.

特色：

有一类比较困难的强化学习问题，其环境反馈是sparse和delayed的。这里的解决方法是构造一个两个层级的算法。这很符合人类完成一个复杂任务的模式，遇到一个复杂任务的时候，我们会把它拆解成一系列的小目标，然后逐个去实现这些小目标。通过这样的算法，文章能够学习到Montezuma’s Revenge游戏（一个简单的类似魔塔的小游戏，形式上也有点像超级马里奥）的策略。

分类：

model-free hierarchical RL, value-based, for specific task

过程：

考虑一个两层级的算法。

一个层级叫做meta-controller，它负责获取当前状态 $s_t$ ，然后从可能的子任务里面选取一个子任务 $g_t in mathcal{G}$ 交代给下一个层级的控制器去完成。它是一个强化学习算法，其目标是最大化实际得到的extrinsic reward之和， $F_t = sum_{t'=t}^infty gamma^{t'-t} f_{t'}$ 。在这里，这一层使用的是DQN方法，这一层Q-value的更新目标是

另一个层级叫做controller，它负责接收上一个层级的子任务 $g$ 以及当前的状态 $s_t$ ，然后选择一个可能的行动 $a_t$ 去执行。它也是一个强化学习算法，其目标是最大化一个人为规定的critic给出的intrinsic reward之和， $R_t(g) = sum_{t'=t}^infty gamma^{t'-t} r_{t'}(g)$ 。这里也使用DQN方法，更新目标为

算法框架如图所示

算法：

这个工作有哪些不足之处？

1. 对于特定的这个Montezuma’s Revenge任务做了太多特定的engineering，对于其他任务并不是普遍适用。比如critic的判断规定为“小人是否到达某个位置”这样的yes-or-no的判断条件；再比如由于子任务是需要小人到达某个位置，因此就先训练子网络让子网络基本上能知道如何操作才能使得小人移动到规定的地点。个人感觉，文章选择的这个任务属于本身就具有明显层级结构的任务，只要做了合适的分层，效果应该都还有。

2. 文章并没有对比其他hierarchical RL的算法（当然，也有可能2016年还没有特别多这方面可以用于对比的算法）。文中的算法是面向特定任务有做特定工程优化的算法，用于对比的baseline算法只是简单的DQN，这样的对比也不公平。

3. sub-goal的选取和学习是否可以更普适呢？最近看的有些文章感觉做的更好，比如reward稀疏我们就更多地利用环境反馈的state，我们希望个体能更多样地探索状态空间[1]；再比如好奇心算法[2]（还没仔细看）。其他的这些方法之后有空再聊。

[1] Eysenbach, Benjamin, et al. "Diversity is All You Need: Learning Skills without a Reward Function."arXiv preprint arXiv:1802.06070(2018).

[2] Burda, Yuri, et al. "Large-Scale Study of Curiosity-Driven Learning."arXiv preprint arXiv:1808.04355(2018).

exploration by random network distillation

总结:
1.采用随机生成的固定网络作为目标网络，另一网络不断最小化与其的误差，从而达到评估观察的新颖性。
2.介绍了一种灵活地结合内在和外在奖励的方法。
abstract
我们为深度强化学习方法引入了一个探索方法，该方法易于实现，并且为执行的计算增加了最小的开销。奖励是神经网络预测由固定随机初始化神经网络给出的观察特征的误差。我们还介绍了一种灵活地结合内在和外在奖励的方法。

1.Introduction
但是当奖励稀疏且难以找到时往往会失败。实际上，为想要RL代理解决的每个任务设计密集奖励函数通常是不切实际的。在这些情况下，有必要以有针对性的方式探索环境.

RL的最新发展似乎表明解决了极具挑战性的任务需要处理从并行运行多个环境副本获得的大量样本。鉴于此，期望具有在大量经验下可以很好地扩展的探索方法。然而，许多最近引入的基于计数，伪计数，信息增益或预测增益的探索方法难以扩展到大量并行环境。

本文介绍了一种特别易于实现的探索奖励，适用于高维观测，可与任何策略优化算法一起使用，并且计算效率高，因为它只需要批量生成神经网络的单个正向传递经验。我们的探索奖金是基于以下观察：神经网络往往在类似于训练他们的示例上具有显着更低的预测误差。这促使了使用代理人过去经验训练的网络的预测误差来量化新体验的新颖性。

最大化这种预测误差的代理往往会被吸引到过渡，如Noise TV.我们的解决方案，我们预测当前观察的固定随机初始化神经网络的输出。

内在回报+外在回报的PPO在第一关中能找到24个房间中的22个。有时甚至能通关。

2.Method
通常有两种方法,一种是基于计数，另一种是基于它为相关的代理的转变的问题的预测误差。

2.2Random network distillation
本论文采用了一种随机生成预测问题的不同方法(预测观察的新颖性)。这涉及两个神经网络：一个随机初始并固定的目标网络f。另一个是预测网络 ${\hat{f}}_{θ}$

2.2.1 Sources of Prediction Errors

1.训练数据量：如果预测网络只观测过很少数据，那么预测误差就会很高
2.随机性:预测误差很高，因为目标函数是随机的（任意不确定）。随机转移是前向动态预测的这种误差的来源。(Noise TV)
3.模型的不适用:必要的信息丢失了，或者模型过于简单无法适应目标函数的复杂度导致预测误差很高
4.学习动态。预测误差很高，因为优化过程无法在模型类中找到最接近目标函数的预测器。

RND能够避免2,3。因为目标网络可以被选择为确定性的并且在预测器网络的模型类内

2.3 Combining Intrinsic and Extrinsic Returns
epoch结束得分清零的外部奖励以及得分不清零的内部奖励结合。我们的解决方案是观察到回报是线性的奖励等可以分别作为外在和内在收益的和

2.4 Reward and Observation Normalization
使用预测误差作为探索奖励的一个问题是奖励的规模在不同环境之间和不同时间点之间可能变化很大，使得难以选择在所有设置中工作的超参数。为了使奖励保持在一致的范围内，我们通过将内在回报除以内在回报的标准差的运行估计来对其进行归一化。

同样观察的归一化也很重要。在使用随机神经网络作为目标时至关重要，因为参数被冻结，因此无法适应不同数据集的规模。缺乏归一化可能导致嵌入的方差极低并且几乎没有关于输入的信息

Discussion
本文介绍了一种基于随机网络蒸馏的探测方法，并通过实验证明该方法能够对几种具有非常稀疏奖励的Atari游戏进行定向探索。这些实验表明，使用相对简单的通用方法可以在硬探索游戏方面取得进展，特别是在大规模应用时.

我们发现RND探索奖励足以应对局部探索，即探索短期决策的后果，例如是否与特定对象互动或避免它。然而，涉及长期视野的协调决策的整体探索超出了我们的方法的范围。

要解决Montezuma复仇的第一级，代理人必须进入一扇锁在两扇门后面的房间。整个楼层共有四个钥匙和六扇门。四个钥匙中的任何一个都可以打开六个门中的任何一个，但在此过程中消耗。因此，为了打开最后两扇门，代理商必须放弃打开两个更容易找到的门，并立即奖励它打开它们。
为了激励这种行为，代理人应该获得足够的内在奖励来保存关键，以平衡外在奖励的损失，尽早使用它们。根据我们对RND代理人行为的分析，它没有足够大的动力来尝试这种策略，并且很少偶然发现它。

解决这个以及需要高水平探索的类似问题是未来工作的重要方向。

exploration by random network distillation

看了半天这篇文章给的源码，大概思路能理解，但是要完全读明白OpenAI的代码，感觉有点难，没什么注释，还缺少文件。

这篇文章读下来是基于18年Deepmind提出的一种不确定性度量法。

随后OpenAI，就是用这个这个思想在这个内部奖励/好奇心/内在动机的思路中。

并且取得了相对可观的效果。

首先讨论了以下以前提出的基于table的counts based方法以及non-table的pseudo-counts的方法。

之后开始介绍

主要是随机初始化一个fixed以及random init的Net

以及一个经过训练的预测Net

优化目标

很好理解，就是让预测网络和fixed的网络尽可能接近。
内部奖励被定义为：两个相减的差距。这个想法和我上一篇写的那个基于KL的k step 的方法极其类似。

也就是经常见到的状态in reward会很低，相反会很高。

伪代码如下：恕我实在读不太明白他的代码，但是整体思路和伪代码一样，只是细节上很有一些不同。

RND（Exploration by Random Network Distillation）算法

文章目录

传统上，Agent 从他们的经验中学习下一状态预测模型，并将预测误差用作内在 reward。与现有方法不同，RND引入的内在 reward 基于预测下一状态下固定且随机初始化的神经网络的输出。在不熟悉的状态下，很难预测输出，因此奖励很高。它可以应用于任何强化学习算法，实现简单而且高效。

研究问题

强化学习( RL )方法的目标是最大化策略的期望 return。当环境中有大量 reward 时，传统的探索方法很有效，这些奖励很容易通过随机的一系列行动找到，但是当奖励很少且很难找到时，这种方法往往会失效。

经典的 DQN 算法在《蒙特祖玛的复仇》中无法取得任何得分。简单的探索策略极不太可能得到任何奖励，或者看到该级别的24个房间中的更多，从那时起，该游戏进展被许多人视为探索进步的代名词。

之前有关 Curiosity-Driven 的文章大都是从经验中学习下一状态的预测模型，并将预测结果和实际结果的误差作为内在 reward 使用。

基于 Curiosity-Driven 的 Next-State 预测模型

Noisy-TV 问题

Agent 被安排在一个迷宫里，它的任务是找到最高奖励的对象（和在超市里找奶酪的道理一样）。迷宫中有一台电视，而 Agent 有它的遥控器。但是电视只有几个台（每个台放的节目不一样），每按一下遥控器，电视就会随机切换频道。在这种情况下， Agent 应该怎么做呢？

对于基于误差的好奇心方程来说，调换频道会导致较大的奖励，因为每次换台都是无法预测的，充满惊喜。重要的是，当所有频道轮换一遍之后，随机选择仍会让 Agent 感到惊奇， Agent 仍然可能会预测错误。所以， Agent 为了获得不断的惊喜、得到奖励，就会一直站在电视机前不走。所以为了避免这种情况，该如何重新定义好奇心呢？

因为 TV 上的节目是随机播放的，也就是下一状态根本无法预测，之前的 Curiosity-Driven 的预测模型无法解决这个问题。在《蒙特祖玛的复仇》游戏里，基于与现有方法不同，RND引入的内在 reward 基于预测下一状态下固定且随机初始化的神经网络的输出。在《蒙特祖玛的复仇》游戏中，基于 Curiosity-Driven 的算法会出现在两个房间来回切换的问题。

Random Network Distillation

对于预测模型，一般来说，预测误差和四个因素有关：

预测器无法泛化，因为训练集不够
预测目标是随机的
缺少必要的输入信息
模型能力不足以适应目标函数

第一点是必要的，泛化能力差就代表了预测误差高也就是好奇心高。第二点导致到了Noisy-TV问题，应该避免。同样的，第三点和第四点也要去除。

于是提出了RND算法，引入的内在 reward 是基于预测下一状态下固定且随机初始化的神经网络的输出。

通过两张图片的对比可以发现，之前的 Curiosity-Driven 算法输入是 $(O_{i}, a_{i})$

而RND模型预测的输出是确定的，规避了第二点。为了避免三号和四号因素，RND 选择和目标网络相同的架构。

实验

超级马里奥：

Agent通过了11关，找到了许多隐藏的房间，并打败了库巴大魔王。

蒙特祖玛的复仇：

最好成绩，当然是24个房间都攻破，顺利通过第一关，得分17.5k。
并且，多数情况下，智能体都能解锁20-22个房间，得分14.5k。
对比一下，人类平均分是4.7k。

等等

REF：

Exploration by Random Network Distillation
https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/

Yumho

幽幽微醺淡淡咖啡香

主页

所有文章关于我

Relational inductive biases, deep learning, and graph networks

论文认为：组合泛化（combinatorial generalization）是AI中最首要的任务，要达到这个目的，结构化表征（structured representations）和计算能力（computations）很关键。如生物学中，将先天基因和后天孕育结合在一起，因此我们必须摒弃在”手动设计结构(hand-engineering)“和”端到端（end-to-end）”二选一的错误做法，而是把两者结合起来：深度学习+基于结构的方法：图网络。

展开全文 >>

Attention

Attention Mechanism 非常流行，广泛用于机器翻译、语音识别、计算机视觉等很多领域。它之所以这么受欢迎，是因为 Attention 赋予了模型区分辨别的能力。深度学习中的注意力机制从本质上和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

展开全文 >>

RND（Exploration by Random Network Distillation）算法

传统上，Agent 从他们的经验中学习下一状态预测模型，并将预测误差用作内在 reward。与现有方法不同，RND引入的内在 reward 基于预测下一状态下固定且随机初始化的神经网络的输出。在不熟悉的状态下，很难预测输出，因此奖励很高。它可以应用于任何强化学习算法，实现简单而且高效。

展开全文 >>

MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）算法

由于环境状态由多个Agent的行为共同决定，本身具有不稳定性（non-stationarity），这就导致 Q-learning 算法很难训练，policy gradient 算法的方差会随着智能体的增加变得更大。

本文提出了一种AC方法的变体 MADDPG ，每个 agent 学习的过程中都可以知晓其他 agent 的策略，进行中心化训练和非中心化执行，取得了显著效果。

展开全文 >>

UNREAL（UNsupervised REinforcement and Auxiliary Learning）算法

作者通过添加辅助任务增强了A3C（Asynchronous Actor Critic）算法。这些辅助任务共享网络参数，但是它们的价值函数是通过 n-step 的 off-policy 的 Q-Learning 来学习的。辅助任务只用于学习更好的表示，而不直接影响主任务的任务control。这种改进被称为UNREAL（Unsupervised Reinforcement and Auxiliary Learning），在性能和训练效率方面优于A3C。

展开全文 >>

深度后续强化学习 Deep Successor Reinforcement Learning

一般地，在只给定原始输入观察和奖赏值的情况下，通过基于模型（model-based）或者模型无关（model-free）的DRL算法可以学习到鲁棒的值函数。
后续状态表示法（Successor Representation， SR）
为学习值函数提供了第 3 种选择。

展开全文 >>

事后经验回放 Hindsight Experience Reply

提出一种新的经验回放方法，能够在稀疏且binary reward 环境中训练 RL 算法。

展开全文 >>

David Silver 强化学习 5 模型无关控制 Model-Free Control

简介 Introduction

上一讲主要讲解了在模型未知的情况下如何进行预测。所谓的预测就是评估一个给定的策略，也就是确定一给定策略下的状态（或状态行为对）的价值函数。这一讲的内容主要是在模型未知的条件下如何优化价值函数，这一过程也称作模型无关的控制。

现实中有很多此类的例子，比如控制一个大厦内的多个电梯使得效率最高；控制直升机的特技飞行，机器人足球世界杯上控制机器人球员，围棋游戏等等。所有的这些问题要么我们对其模型运行机制未知，但是我们可以去经历、去试；要么是虽然问题模型是已知的，但问题的规模太大以至于计算机无法高效的计算，除非使用采样的办法。本节的内容就专注于解决这些问题。

展开全文 >>

David Silver 强化学习 4 模型无关预测 Model-Free Prediction

简介 Introduction

上节课中通过动态规划能够解决已知 environment 的 MDP 问题，也就是已知 $S, A, P, R, γ$

这节课要解决的问题是Model-free prediction，即未知environment的Policy evaluation，在给定的 policy 下，每个state的 value function 是多少。

展开全文 >>

David Silver 强化学习 3 动态规划解决MDP的Planning问题

简介 Introduction

当问题具有下列特性时，通常可以考虑使用动态规划来求解：

第一个特性是一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；
子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用。

马尔可夫决策过程（MDP）具有上述两个属性：Bellman方程把问题递归为求解子问题，价值函数就相当于存储了一些子问题的解，可以复用。因此可以使用动态规划来求解MDP。

我们用动态规划算法来求解一类称为“规划 Planning”的问题。“规划”指的是在了解整个MDP的基础上求解最优策略，也就是清楚模型结构的基础上：包括状态行为空间、转换矩阵、奖励等。这类问题不是典型的强化学习问题，我们可以用规划来解决 Predict 和 Control 问题。

展开全文 >>

« Prev 12 Next »

Information-Directed Exploration for Deep Reinforcement

Abstract: Efficient exploration remains a major challenge for reinforcement learning. One reason is that the variability of the returns often depends on the current state and action, and is therefore heteroscedastic. Classical exploration strategies such as upper confidence bound algorithms and Thompson sampling fail to appropriately account for heteroscedasticity, even in the bandit setting. Motivated by recent findings that address this issue in bandits, we propose to use Information-Directed Sampling (IDS) for exploration in reinforcement learning. As our main contribution, we build on recent advances in distributional reinforcement learning and propose a novel, tractable approximation of IDS for deep Q-learning. The resulting exploration strategy explicitly accounts for both parametric uncertainty and heteroscedastic observation noise. We evaluate our method on Atari games and demonstrate a significant improvement over alternative approaches.

>>>

查看全文

相关阅读:
JS 实现数据分割1，123，456
JS屏蔽键盘相关事件
 地图坐标转屏幕坐标
 对xml格式的字符串的一些操作
 ListView_Adpter
单元测试(Android)_JUnit
调用系统拍照
 获取手机SD卡的剩余容量(MB)
数据库的基本操作
 临时修改模拟器手机运行内存和手机内存（不是SD卡内存）

原文地址：https://www.cnblogs.com/cx2016/p/11415855.html

Copyright © 2011-2022 走看看