对手策略在迭代 1 时很简单,即对手随机选择尚未在 TTT 板上标记的任何单元格。 RL 在迭代 1 中学习对手的这个策略(通过执行 Q-Learning),然后将这个确定性策略交给对手,这样对手在迭代 2 中的表现比其早期的随机策略“更好”。 重复此过程,直到RL的对手移交在迭代过程中没有发生变化为止(在迭代7中发生)。该程序在If Kozhikode的人工智能和机器学习eMDP程序2020-21中作为演示编写,并得到了Afsal Najeeb(afsalnjeeb)的帮助<afsaln>
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~