zoukankan      html  css  js  c++  java
  • Unsupervised Predictive Memory in a Goal-Directed Agent

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

    arXiv: Learning, (2018) 

      尽管传感器的幅度和范围有限,动物仍会执行目标导向的行为。为了应对,他们探索环境并存储记忆,以维护对当前尚不可用的重要信息的估计(1)。最近,通过将RL算法与深度神经网络(2, 3)融合在一起,AI智能体已经获得进步,并学会了从感官输入中执行任务,甚至达到人类水平。这些结果导致人们对相关思想的追求作为对非人类动物学习的解释(4, 5)。但是,我们证明,当智能体的传感器中隐藏了足够多的信息时,当代的RL算法很难解决简单的任务,这种属性称为“部分可观察性”。处理部分观察到的任务的一个明显要求是访问大量记忆,但我们证明记忆不够用。正确的信息以正确的格式存储至关重要。我们开发了一个模型,即“记忆,RL和推理网络(MERLIN)”,其中的记忆形成是由预测建模过程指导的。MERLIN有助于解决3D虚拟现实环境(6)中的任务,在这些环境中,部分可观察性很强,并且必须长时间保存记忆。我们的模型演示了一个单一的学习智能体架构,该架构可以解决心理学和神经生物学中的规范行为任务,而无需大力简化有关感官输入维数或经验持续时间的假设。

  • 相关阅读:
    Unity3D-集成Sqlite
    unity3d 规范默认 目录结构
    隐私政策(玩儿英语)
    看漫画学知识:详解获得苹果推荐的4大要素
    加密你的SQLite
    解决JME SDK中文乱码(显示方框)
    Unity安卓共享纹理
    Android/iOS内嵌Unity开发示例
    Unity音量可视化——粒子随声浪跳动
    Windows环境下为Android编译OpenCV4.3
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/13587058.html
Copyright © 2011-2022 走看看