【免费】阿法狗围棋系统的简要分析1资源-CSDN文库

需积分: 0 183 浏览量 2022-08-03 23:17:59 上传评论收藏 1.96MB PDF 举报

资源详情

资源评论

资源推荐

第 42 卷第 5 期自动化学报 Vol. 42, No. 5

2016 年 5 月 ACTA AUTOMATICA SINICA May, 2016

阿法狗围棋系统的简要分析

田渊栋

摘要谷歌的围棋系统阿法狗 (AlphaGo) 在三月的比赛中以 4:1 的成绩击败了围棋世界冠军李世石, 大大超过了许多人对

计算机围棋程序何时能赶上人类职业高手的预期 (约 10 ∼ 30 年). 本文在技术层面分析了阿法狗系统的组成部分, 并基于它过

去的公开对局预测了它可能的弱点.

关键词深度学习, 深度卷积神经网络, 计算机围棋, 强化学习, 阿法狗

引用格式田渊栋. 阿法狗围棋系统的简要分析. 自动化学报, 2016, 42(5): 671−675

DOI 10.16383/j.aas.2016.y000001

A Simple Analysis of AlphaGo

TIAN Yuan-Dong

Abstract In March 2016, the AlphaGo system from Google DeepMind beat the World Go Champion Lee Sedol 4:1 in

a historic ﬁve-game match. This is a giant leap ﬁlling the gap between Go AI and top human professional players, which

was once regarded to be ﬁlled in at least 10 ∼ 30 years. In this paper, based on published results [Silver et al., 2016], i

analyze the components of AlphaGo and predict its potential technical weakness based on the public games of AlphaGo.

Key words Deep learning, deep convolutional neural network, computer Go, reinforcement learning, AlphaGo

Citation Tian Yuan-Dong. A simple analysis of AlphaGo. Acta Automatica Sinica, 2016, 42(5): 671−675

AlphaGo 这个系统

[1]

主要由几个部分组成:

1) 走棋网络 (Policy network), 给定当前局面,

预测/采样下一步的走棋.

2) 快速走子 (Fast rollout), 目标和走棋网络一

样, 但在适当牺牲走棋质量的条件下, 速度要比走棋

网络快 1 000 倍.

3) 估值网络 (Value network), 给定当前局面,

估计是白胜还是黑胜.

4) 蒙特卡罗树搜索 (Monte Carlo tree search,

MCTS), 把以上这三个部分连起来, 形成一个完整

的系统.

我们的 DarkForest

[2]

和 AlphaGo 同样是用蒙

特卡罗树搜索搭建的系统. DarkForest 较 AlphaGo

而言, 在训练时加强了走棋网络, 而少了快速走子

和估值网络, 12 月时以开源软件 Pachi 的缺省策略

(Default policy) 部分替代了快速走子的功能, 2 个

月后部分实现了 AlphaGo 快速走子的能力.

以下详细介绍各部分.

1 走棋网络

走棋网络把当前局面作为输入, 预测/采样下

收稿日期 2016-04-14 录用日期 2016-05-10

Manuscript received April 14, 2016; accepted May 10, 2016

本文责任编委周志华

Recommended by Associate Editor ZHOU Zhi-Hua

1. 脸书人工智能研究所加利福尼亚州 94025 美国

1. Facebo ok AI Research (FAIR) Facebook Inc., CA 94025,

USA

一步的走棋. 它的预测不只给出最强的一手, 而是

对棋盘上所有可能的下一着给一个分数. 棋盘上

有 361 个点, 它就给出 361 个数, 好招的分数比坏

招要高. DarkForest 在这部分有创新, 通过在训练

时预测三步而非一步, 提高了策略输出的质量, 和

他们在使用增强学习进行自我对局后得到的走棋

网络 (Reinforced network, RL network) 的效果相

当. 当然, 他们并没有在最后的系统中使用增强

学习后的网络, 而是用了直接通过训练学习到的网

络 (Supervised network, SL network), 理由是 RL

network 输出的走棋缺乏变化, 对搜索不利.

有意思的是在 AlphaGo 为了速度上的考虑, 只

用了宽度为 192 的网络, 而并没有使用最好的宽度

为 384 的网络 (见图 1, 即文献 [1] 中 Figure 2 的

左图), 所以要是图形处理器 (Graphics processing

unit, GPU) 更快一点 (或者更多一点), AlphaGo 肯

定是会变得更强的.

所谓的 0.1 秒走一步, 就是纯粹用这样的网络,

下出有最高置信度的合法着法. 这种做法完全不搜

索, 大局观非常强, 不会陷入局部战斗中, 说它建模

了 “棋感” 一点也没有错. 从去年八月开始我们秉持

开放的目的, 第一个把基于深度学习的走棋网络直

接放上 KGS Go Server 给大家试下并且达到了 3d

的水平, 当时引起了挺大的轰动, 并且在今年 1 月的

KGS 锦标赛上差点拿了冠军. 受此影响, 今年 3 月

份在日本举行的 UEC 杯 (日本电气通信大学杯) 进

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

高工-老罗

粉丝: 19
资源: 314

阿法狗围棋系统的简要分析1

评论0

最新资源

阿法狗围棋系统的简要分析1

评论0

阿法狗论文-alphago

Python-2016深度学习阿法狗复制品

阿法狗原理

阿法狗破解小林流.doc

奇点到来，超越人类 《Nature论文：人工智能从0-1自学打败阿法狗 》论文翻译.pdf

CCTC 2016 平安科技夏磊豪：两朵云与金融“阿法狗”

CrazyStone2016疯狂石头深度学习版

Alphadeco阿法黛佳产品知识培训.pptx

人工智能与智能制造V2.pdf

人工智能作文400字.doc

阿法罗比 alfarabbit 五代 3070双核原装驱动

小白也能听懂人工智能原理

效果超棒的Webgl模型-阿法思密罗汽车

人工智能-AI--IBM-Watson.pptx

人工智能制造-产业发展研究报告.pptx

金融大数据技术与实战-王健宗

蒙特卡洛方法求π

HelloTest:阿法德法斯

智能带电工具库房管理系统三种解决方案介绍

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

2024最新：Hvv中常见的面试问题

全面的安全基线核查清单

最新资源

奇点到来，超越人类《Nature论文：人工智能从0-1自学打败阿法狗》论文翻译.pdf