《用通用强化学习算法自我对弈，掌握国际象棋和将棋》资源-CSDN文库

需积分: 50 54 浏览量 2018-11-22 13:21:29 上传评论 5 收藏 484KB PDF 举报

资源推荐

资源详情

资源评论

用通用强化学习算法自我对弈，掌握国际象棋和将棋-中文版

《用通用强化学习算法自我对弈，掌握国际象棋和将棋》（Mastering Chess and Shogi by Self-Play with a General

Reinforcement Learning Algorithm）

AI发展日新月异, 既单一最强AI AlphaGo划时代诞生后, 通用AI也呼之欲出, 而AlphaZero的横空出世, 证明了通用AI这

条路的可行性.从这一刻起, 人类历史或将被改写!

本文由"人工智能"整理,供AI爱好者及学习者参考,对通用AI有兴趣,有偏才或者AI领域的专业者,可以加我们的这个群

528053635来一起研究.

强人工智能AGI/AI交流群528053635

新闻内容新闻内容:

DeepMind团队描述了一个通用棋类AI“AlphaZero”，在不同棋类游戏中，战胜了所有对手，而这些对手都是各自领

域的顶级AI：

战胜最强国际象棋AI Stockfish：28胜，0负，72平；

战胜最强将棋AI Elmo：90胜，2平，8负；

战胜最强围棋AI AlphaGo Zero：60胜，40负

其中，Stockfish是世界上最强的国际象棋引擎之一，它比最好的人类国际象棋大师还要强大得多。与大多数国际

象棋引擎不同，Stockfish是开源的（GPL license）。用户可以阅读代码，进行修改，回馈，甚至在自己的项目中

使用它，而这也是它强大的一个原因。

将棋AI Elmo的开发者是日本人泷泽城，在第27届世界计算机将棋选手权赛中获得优胜。Elmo的策略是在对战中搜

索落子在哪个位置胜率更高，判断对战形势，进而调整策略。Elmo名字的由来是electric monkey（电动猴子，越来

越强大之意），根据作者的说法也有elastic monkey（橡皮猴子，愈挫愈勇）之意。

AlphaZero炼成最强通用棋类AI，仅用8小时就能完爆人类棋类游戏

而AlphaGo Zero更是不必介绍，相信“阿法元”之名已经传遍中国大江南北。而AlphaZero在训练34小时后，也胜过

了训练72小时的AlphaGo Zero。

棋类的解决框架一直都是基于 minimax + heuristic。以前围棋难是因为minimax在有着很大分支的游戏上无法产生

足够的深度，并且heuristic难以设计。Alphago Zero时候就已经证明了cnn很适合做heuristic，而mcts也可以解决深

度问题。那为什么别人不做呢？

因为贫穷限制了我们的想象力。

有钱真的是可以为所欲为。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

内容反馈

诺亚方包

粉丝: 753
资源: 259

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip