没有合适的资源?快使用搜索试试~ 我知道了~
阿法狗围棋系统的简要分析1
需积分: 0 0 下载量 183 浏览量
2022-08-03
23:17:59
上传
评论
收藏 1.96MB PDF 举报
温馨提示
试读
5页
第 42 卷第 5 期2016 年 5 月阿法狗围棋系统的简要分析田渊栋 1谷歌的围棋系统阿法狗 (AlphaGo) 在三月的比赛中以 4:1 的成绩击败了围棋
资源详情
资源评论
资源推荐
第 42 卷 第 5 期 自 动 化 学 报 Vol. 42, No. 5
2016 年 5 月 ACTA AUTOMATICA SINICA May, 2016
阿法狗围棋系统的简要分析
田渊栋
1
摘 要 谷歌的围棋系统阿法狗 (AlphaGo) 在三月的比赛中以 4:1 的成绩击败了围棋世界冠军李世石, 大大超过了许多人对
计算机围棋程序何时能赶上人类职业高手的预期 (约 10 ∼ 30 年). 本文在技术层面分析了阿法狗系统的组成部分, 并基于它过
去的公开对局预测了它可能的弱点.
关键词 深度学习, 深度卷积神经网络, 计算机围棋, 强化学习, 阿法狗
引用格式 田渊栋. 阿法狗围棋系统的简要分析. 自动化学报, 2016, 42(5): 671−675
DOI 10.16383/j.aas.2016.y000001
A Simple Analysis of AlphaGo
TIAN Yuan-Dong
1
Abstract In March 2016, the AlphaGo system from Google DeepMind beat the World Go Champion Lee Sedol 4:1 in
a historic five-game match. This is a giant leap filling the gap between Go AI and top human professional players, which
was once regarded to be filled in at least 10 ∼ 30 years. In this paper, based on published results [Silver et al., 2016], i
analyze the components of AlphaGo and predict its potential technical weakness based on the public games of AlphaGo.
Key words Deep learning, deep convolutional neural network, computer Go, reinforcement learning, AlphaGo
Citation Tian Yuan-Dong. A simple analysis of AlphaGo. Acta Automatica Sinica, 2016, 42(5): 671−675
AlphaGo 这个系统
[1]
主要由几个部分组成:
1) 走棋网络 (Policy network), 给定当前局面,
预测/采样下一步的走棋.
2) 快速走子 (Fast rollout), 目标和走棋网络一
样, 但在适当牺牲走棋质量的条件下, 速度要比走棋
网络快 1 000 倍.
3) 估值网络 (Value network), 给定当前局面,
估计是白胜还是黑胜.
4) 蒙特卡罗树搜索 (Monte Carlo tree search,
MCTS), 把以上这三个部分连起来, 形成一个完整
的系统.
我们的 DarkForest
[2]
和 AlphaGo 同样是用蒙
特卡罗树搜索搭建的系统. DarkForest 较 AlphaGo
而言, 在训练时加强了走棋网络, 而少了快速走子
和估值网络, 12 月时以开源软件 Pachi 的缺省策略
(Default policy) 部分替代了快速走子的功能, 2 个
月后部分实现了 AlphaGo 快速走子的能力.
以下详细介绍各部分.
1 走棋网络
走棋网络把当前局面作为输入, 预测/采样下
收稿日期 2016-04-14 录用日期 2016-05-10
Manuscript received April 14, 2016; accepted May 10, 2016
本文责任编委 周志华
Recommended by Associate Editor ZHOU Zhi-Hua
1. 脸书人工智能研究所 加利福尼亚州 94025 美国
1. Facebo ok AI Research (FAIR) Facebook Inc., CA 94025,
USA
一步的走棋. 它的预测不只给出最强的一手, 而是
对棋盘上所有可能的下一着给一个分数. 棋盘上
有 361 个点, 它就给出 361 个数, 好招的分数比坏
招要高. DarkForest 在这部分有创新, 通过在训练
时预测三步而非一步, 提高了策略输出的质量, 和
他们在使用增强学习进行自我对局后得到的走棋
网络 (Reinforced network, RL network) 的效果相
当. 当然, 他们并没有在最后的系统中使用增强
学习后的网络, 而是用了直接通过训练学习到的网
络 (Supervised network, SL network), 理由是 RL
network 输出的走棋缺乏变化, 对搜索不利.
有意思的是在 AlphaGo 为了速度上的考虑, 只
用了宽度为 192 的网络, 而并没有使用最好的宽度
为 384 的网络 (见图 1, 即文献 [1] 中 Figure 2 的
左图), 所以要是图形处理器 (Graphics processing
unit, GPU) 更快一点 (或者更多一点), AlphaGo 肯
定是会变得更强的.
所谓的 0.1 秒走一步, 就是纯粹用这样的网络,
下出有最高置信度的合法着法. 这种做法完全不搜
索, 大局观非常强, 不会陷入局部战斗中, 说它建模
了 “棋感” 一点也没有错. 从去年八月开始我们秉持
开放的目的, 第一个把基于深度学习的走棋网络直
接放上 KGS Go Server 给大家试下并且达到了 3d
的水平, 当时引起了挺大的轰动, 并且在今年 1 月的
KGS 锦标赛上差点拿了冠军. 受此影响, 今年 3 月
份在日本举行的 UEC 杯 (日本电气通信大学杯) 进
高工-老罗
- 粉丝: 19
- 资源: 314
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0