zoukankan      html  css  js  c++  java
  • 读《阿法狗围棋系统的简要分析》

    这篇文章[1]是 facebook 人工智能研究所的田渊栋研究员在16年发表于《自动化学报》上的文章,周志华老师是本文的责任编委。
    这篇文章主要谈 AlphaGo 的系统组成,包括走棋网络、快速走子、估值网络与蒙特卡罗树搜索。走棋网络用到的技术有深度卷积神经网络(Deep convolutional neural network,DCNN),而快速走子用到的是传统技术——局部特征匹配和线性回归——这种技术广泛用于广告推荐、竞价排名等应用场景中。
    基于 DCNN 的围棋系统,从一开始就需要大量的高水平对局以建立走子网络,在此基础上才能训练出估值网络来。
    在 AlphaGo 中,增强学习 (Reinforcement learning) 所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在 AlphaGo 中增强学习更多得是用于提供更多质量更好的样本,给有监督学习 (Supervised learning) 以训练出更好的模型。在这方面增强学习 还有很长的路要走。

    Reference
    [1] 田渊栋. 阿法狗围棋系统的简要分析[J]. 自动化学报, 2016, 42(005):670-675.

  • 相关阅读:
    反向迭代器实现字符串逆序
    排序更新
    快速排序的实现方法,调用sort函数
    第k个素数
    ACM Online Judge
    Hadoop系列(一)开篇简介
    Hadoop系列(番外) hadoop3.1.2的完全分布式部署
    synchronized关键字
    Oracle的运行
    在Oracle下创建数据库,连接数据库
  • 原文地址:https://www.cnblogs.com/zhengw28/p/13441467.html
Copyright © 2011-2022 走看看