Observational Overfitting in Reinforcement Learning

zoukankan html css js c++ java

Observational Overfitting in Reinforcement Learning

发表时间：2019（ICLR 2019）
文章要点：这篇文章提到了RL里面overfitting的问题，提出了一个Observational Overfitting的问题，然后用修正观测空间的方式来检测observational overfitting，并得出结论像MLP，CNN这些Overparametrization可能会作为潜在的正则项（implicit regularization），从而缓解这个问题。具体的，Observational Overfitting就是说agent在训练的时候把一些不重要的特征和reward建立了相关性（mistakenly correlate reward with certain spurious features from the observation），比如游戏背景，游戏的计分和计时显示等等，这些特征其实和环境的dynamics没有任何关系，agent的策略也不应该和这些特征产生错误归因（false attributions），但是saliency map却显示agent把这些特征当成了决策的重要信息，导致agent在这些特征上overfitting以至于泛化性变差（the agent can use any features that are correlated with progress, even those which may not generalize across levels）。作者就提出，把观测分为两部分拼在一起作为输入，来检测observational overfitting

其中f映射重要的，有关系的部分，g映射不重要的，无关的部分，h就把这两部分拼起来作为最终的状态。然后就做实验来测试有没有overfitting出现。结论就是网络结构的Overparametrization可能会作为潜在的正则项（implicit regularization），从而缓解Observational Overfitting。
总结：问题是个好问题，就是这个结论感觉有点虎头蛇尾不知所云。
疑问：saliency map好像很有用，需要看看咋做的。Rademacher Complexity要看看。

查看全文

相关阅读:
Linux防火墙命令
 Linux学习笔记：（三）软件包管理（更新中）
Linux赋予root权限
 Linux学习笔记：（二）用户和组群账户管理
 Linux目录结构
 Sublime Text3中Package Control Install Package打不开问题
 Linux学习笔记：（一）常用命令大全
 SpringBoot项目中整合Mybatis框架
 IDEA快速创建springboot项目
 java.lang.NoClassDefFoundError: javax/servlet/ServletOutputStream 报错解决

原文地址：https://www.cnblogs.com/initial-h/p/15371122.html

热门文章
MSMQ常用操作
 关于MSMQ
数据库初始化
 转鹤冲天兄反射性能比较
 消息队列
 面试杂谈
 搜索引擎LuceneNet
Js 拖动效果
 DragRow-GYF
医药股分析