阿尔法狗的工作原理及核心技术.pdf资源-CSDN文库

版权申诉

30 浏览量 2022-06-03 17:54:40 上传评论 1 收藏 67KB PDF 举报

资源推荐

资源详情

资源评论

阿尔法狗的工作原理及核心技术

阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世

界冠军的人工智能程序，由谷歌（Google）旗下 DeepMind 公司戴密斯哈萨比斯领衔的团

队开发。

那么阿尔法狗的工作原理是什么？相关技术又有哪些呢？下面让我们一起来看看。

阿尔法狗工作原理阿尔法围棋（AlphaGo）为了应对围棋的复杂性，结合了监督学习和强

化学习的优势。它通过训练形成一个策略网络（ policynetwork），将棋盘上的局势作为输

入信息，并对所有可行的落子位置生成一个概率分布。然后，训练出一个价值网络

（valuenetwork）对自我对弈进行预测，以-1（对手的绝对胜利）到 1（AlphaGo 的绝对胜

利）的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而阿尔法围棋

将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。新

版的阿尔法围棋产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

在获取棋局信息后，阿尔法围棋会根据策略网络（policynetwork）探索哪个位置同时具备

高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中

被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中

对最佳落子的不断揣摩后，阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的

直觉判断。

围棋棋盘是 19x19 路，所以一共是 361 个交叉点，每个交叉点有三种状态，可以用1 表示

黑子，-1 表示白字，0 表示无子，考虑到每个位置还可能有落子的时间、这个位置的气等

其他信息，我们可以用一个361*n 维的向量来表示一个棋盘的状态。我们把一个棋盘状态

向量记为 s。

当状态 s 下，我们暂时不考虑无法落子的地方，可供下一步落子的空间也是361 个。我们

把下一步的落子的行动也用 361 维的向量来表示，记为 a。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

内容反馈

版权申诉

春哥111

粉丝: 1w+
资源: 5万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip