zoukankan      html  css  js  c++  java
  • OpenAI击败Dota 2世界冠军后记:如何训练你的AI

      这意味着OpenAI Five是第一个在电竞游戏中击败世界冠军的AI。

      OpenAI Five和DeepMind的AlphaStar之前曾私下击败过优秀的职业选手,但却输掉了职业比赛。这次在直播中的表现可以说出乎了大多数人的意料。

      在比赛后,OpenAI也发博文总结了这次比赛的经验以及在也公布了他们在训练OpenAI Five过程中的经验教训。一起来看!

      在OpenAI Five 的总决赛中,还有两个惊喜:

      1.尽管训练过程专注于击败其他机器人,但OpenAI Five具有了如何成为人类队友的初级能力。这很容易将竞争性AI转变为合作型AI,通过积极的开发工作,未来的AI系统会对人类非常有益。

      2。最后的测试将让我们回答一个重要的研究问题:在多大程度上OpenAI Five可以被利用或以其他方式被确定地击败。这可能是有史以来最大规模的高强度深度强化学习智能体的部署,人们可以有意识地与之交互。

      为什么是Dota?

      启动OpenAI Five是为了解决现有深度强化学习算法无法实现的问题。希望通过解决当前方法无法解决的问题,这需要大幅增加我们工具的功能。我们需要复杂的算法思想,例如分层强化学习,但我们对所发现的东西感到惊讶:我们对这个问题所需的基本改进是规模。实现和利用这种规模并不容易,这正是我们研究工作的主要内容!

      为了构建OpenAI Five,我们创建了一个名为Rapid的系统,让我们以前所未有的规模运行PPO。结果超出了我们最大的期望,我们生产了世界级的Dota机器人,没有受到任何基本的性能限制。

      当今RL算法令人惊讶的强大功能是以大量经验为代价,这在游戏或模拟环境之外是不切实际的。这种限制可能没有声称的那么糟糕,例如,我们使用Rapid来控制机器手以灵巧地重新定位块,这完全是在模拟中训练并在物理机器人上执行。但我们认为减少经验量是RL的下一个挑战。

      今天,OpenAI Five作为竞争者将要退休,但取得的进步和发展的技术将继续驱动我们未来的工作。这不是我们Dota工作的结束——我们认为Dota对于RL开发来说比现在使用的标准环境更具有内在的趣味和困难(现在这已经很好理解!)。

     郑州妇科医院:https://myyk.familydoctor.com.cn/21521/郑州人流医院:https://myyk.familydoctor.com.cn/21521/

      周六OpenAI Five的胜利与2018年国际赛的失败相比,是由于一次重大变化:训练计算量增加了8倍。在项目的许多前期阶段,我们通过提高训练规模来推动进一步的发展。但是在国际赛之后,我们已经将我们项目计算量的绝大部分用于训练单一的OpenAI Five模型。所以,我们以唯一可用的方式增加了计算规模:更长久的训练。

  • 相关阅读:
    超能陆战队之大白的制作过程
    React生命周期
    系统环境变量的解析
    React函数组件
    Node Js模块讲解
    封装读取文件(node js)
    思维导图
    《Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases》论文总结
    《Object Storage on CRAQ: High-throughput chain replication for read-mostly workloads》论文总结
    《 ZooKeeper : Wait-free coordination for Internet-scale systems 》论文研读
  • 原文地址:https://www.cnblogs.com/sushine1/p/10734509.html
Copyright © 2011-2022 走看看