强化学习基础篇(十六)蒙特卡洛预测算法在
21点游戏的应用
本节将介绍Monte Carlo prediction算法在Blackjack游戏中的进行预测的过程。主要基于一个最简单的
策略进行评估,即“超过18点就不在要牌,低于18点就继续要牌”。我将使用两种类型的算法进行评估,
一个是首次访问型蒙特卡洛预测算法(First-visit MC prediction),另一个是每次访问型蒙特卡洛预测
算法(Every-visit MC prediction)。
1、 首次访问型MC预测算法
回顾一下前面介绍的首次访问型MC预测算法。
2、21点游戏
21点游戏使用一副或多副标准的52张纸牌,每张牌都规定一个点值。2~10的牌其点值按面值计算。J、
Q和K都算作10点,A可算作1点,也可算作11点。玩家的目标是所抽牌的总点数比庄家的牌更接近21
点,但不超过21点。
首次发牌每人2张牌。庄家以顺时针方向向众玩家派发一张暗牌(即不被揭开的牌),随后向自己派发一
张暗牌;接着庄家会以顺时针方向向众玩家派发一张明牌(即被揭开的牌),之后向自己也派发一张明
牌。当众人手上各拥一张暗牌和一张明牌时,庄家就以顺时针方向逐位询问玩家是否再要牌(以明牌方
式派发)。在要牌的过程中。如果互家所有的牌加起来超过21点,玩家就输了(Bust),游戏介绍,该
玩家的注码归庄家。
如果玩家无Bust,庄家询问完所有玩家之后,就必须揭开自己上上的暗牌。若庄家总点数少于17点,就
必须继续要牌;如果庄家Bust,便向没有Bust的玩家,赔出该玩家所投的同等注码。如果庄家无Bust且
大于等于17点,那么庄家与玩家比较点数决胜负,大的为赢。点数相同,则为平手。
在该21点游戏例子中,收集经验轨迹时,首先需要确认该游戏基于基策路 下,进行经验数据收集。
为了便于理解,我们使用一个简单的策略,当玩家手上的牌超过18点时,返回0,表示不再要牌;当点
数少于18点时,继续要牌,并返回1。
评论0