zoukankan      html  css  js  c++  java
  • 读《阿法狗围棋系统的简要分析》

    这篇文章[1]是 facebook 人工智能研究所的田渊栋研究员在16年发表于《自动化学报》上的文章,周志华老师是本文的责任编委。
    这篇文章主要谈 AlphaGo 的系统组成,包括走棋网络、快速走子、估值网络与蒙特卡罗树搜索。走棋网络用到的技术有深度卷积神经网络(Deep convolutional neural network,DCNN),而快速走子用到的是传统技术——局部特征匹配和线性回归——这种技术广泛用于广告推荐、竞价排名等应用场景中。
    基于 DCNN 的围棋系统,从一开始就需要大量的高水平对局以建立走子网络,在此基础上才能训练出估值网络来。
    在 AlphaGo 中,增强学习 (Reinforcement learning) 所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在 AlphaGo 中增强学习更多得是用于提供更多质量更好的样本,给有监督学习 (Supervised learning) 以训练出更好的模型。在这方面增强学习 还有很长的路要走。

    Reference
    [1] 田渊栋. 阿法狗围棋系统的简要分析[J]. 自动化学报, 2016, 42(005):670-675.

  • 相关阅读:
    Python基本数据类型
    Python基础之杂货铺
    第五篇:白话tornado源码之褪去模板的外衣
    第四篇:白话tornado源码之褪去模板外衣的前戏
    第三篇:白话tornado源码之请求来了
    重构if-else方法
    linux-常用命令
    Element-UI的远程搜索输入框实现
    下载功能-vue
    上传功能-弹窗实现-vue
  • 原文地址:https://www.cnblogs.com/zhengw28/p/13441467.html
Copyright © 2011-2022 走看看