阿尔法狗的工作原理及核心技术
阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世
界冠军的人工智能程序,由谷歌(Google)旗下 DeepMind 公司戴密斯哈萨比斯领衔的团
队开发。
那么阿尔法狗的工作原理是什么?相关技术又有哪些呢?下面让我们一起来看看。
阿尔法狗工作原理阿尔法围棋(AlphaGo)为了应对围棋的复杂性,结合了监督学习和强
化学习的优势。它通过训练形成一个策略网络( policynetwork),将棋盘上的局势作为输
入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络
(valuenetwork)对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜
利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋
将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新
版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
在获取棋局信息后,阿尔法围棋会根据策略网络(policynetwork)探索哪个位置同时具备
高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中
被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中
对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的
直觉判断。
围棋棋盘是 19x19 路,所以一共是 361 个交叉点,每个交叉点有三种状态,可以用1 表示
黑子,-1 表示白字,0 表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等
其他信息,我们可以用一个361*n 维的向量来表示一个棋盘的状态。我们把一个棋盘状态
向量记为 s。
当状态 s 下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361 个。我们
把下一步的落子的行动也用 361 维的向量来表示,记为 a。