zoukankan      html  css  js  c++  java
  • Atari游戏介绍(ALE中集成的RL游戏环境)

    参考链接:http://d0evi1.com/atari/

    Arxiv:https://arxiv.org/pdf/1709.06009.pdf

    ALE介绍:

      ALE在Stella(一个开源的Atari 2600模拟器)上构建。它允许用户通过接收joystick动作、发送screen/RAM信息、并模拟平台的方式来与Atari 2600交互。ALE提供了一个游戏处理层(game-handling layer),它通过标记累积得分、以及游戏是否已经结束,可以将每个游戏转化成一个标准的增强学习问题。缺省的,每个observation包含了单个游戏屏幕(game screen: frame):一个关于7bit像素的2D数组,160 pixels宽 x 210 pixels高。action space包含了18个离散(discrete)的actions,它们通过操纵杆控制器(joystick controller)来定义。game-handling layer也指定了需要玩一个特定游戏的关于actions的最小集合。当运行时,该仿真器会每秒生成60帧,最高速度的仿真可以达到每秒6000帧。在每个time-step上的reward通过game basis来定义,通常通过在帧之间的得分(score/points)的不同来指定。一个episode会在reset命令后的第一帧(frame)处开始,当游戏结束时终止。game-handling layer也提供了在预定义帧数后终止episode的能力。user因此可以通过单个公共接口来访问数十个游戏,并可以很简单地增加新游戏。

    Atari-py所包含的游戏:

    SAC-Discrete vs Rainbow:

    相关Atari游戏介绍:

    • Alien:控制小人走迷宫;小人接触到亮点则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Amidar:控制小人走迷宫;走过之前未走过的路则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Assault:控制飞机打敌人;击中敌人则加分;飞机被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Asterix:控制智能体接触目标;遇到指定目标则加分;智能体遇到非指定目标则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Battle Zone:控制坦克打敌人;击中敌人则加分;坦克被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(SAC)

    • Beam Rider:控制导弹发射器打敌人;击中敌人则加分;导弹发射器被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Breakout控制板反射球;击中砖块后砖块消失且能够加分;板没接住球则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)

    • Crazy Climber控制小人爬梯子;向上爬则加分;小人脱离梯子则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(Rainbow)

    • Enduro:控制小车沿道路行驶;超越别人加分,被别人超越扣分;小车撞到别人则会停滞;(SAC)

    • Freeway:控制小人过马路;小人成功过马路则加分;小人撞到车会被阻碍;游戏时间达到一定时长上方计分会闪烁,不久后游戏结束;(SAC)

    • Frostbite:控制小人过河;踩过板子则加分;小人掉下河则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(Rainbow)

    • JamesBond:控制智能体前进;击中敌人则加分;被敌人击中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(SAC)

    • Kangaroo:控制袋鼠闯关;踩死敌人则加分;袋鼠被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • MsPacman:控制嘴巴走迷宫;嘴巴吃到红杠则加分;嘴巴被幽灵抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Pong:控制拍与对手打乒乓球;一方没接住球则另一方得分;一方到达21分则游戏结束;(Rainbow)

    • Qbert:控制小人踩格子;踩到没踩过的格子则加分;小人被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Road Runner:控制小人跑步;向前跑则加分;小人被车撞上则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Seaquest:控制潜艇打敌人;打中敌人则加分;潜艇氧气耗尽则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Space Invaders:控制智能体打敌人;打中敌人则加分;被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Up N Down:控制小车沿道路行驶;小车前进则加分;撞到别人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)

  • 相关阅读:
    Parameter Binding in ASP.NET Web API
    Which HTTP methods match up to which CRUD methods?
    ErrorHandling in asp.net web api
    HttpStatusCode
    Autofac Getting Started(默认的构造函数注入)
    Autofac Controlling Scope and Lifetime
    luvit 被忽视的lua 高性能框架(仿nodejs)
    undefined与null的区别
    VsCode中使用Emmet神器快速编写HTML代码
    字符串匹配---KMP算法
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/13971411.html
Copyright © 2011-2022 走看看