我们开发了一种学习模型,将强化学习的经典模型扩展到连续的多维策略空间。 该模型利用最近的近似方法来解决传统离散化方法固有的维数灾难。 至关重要的是,该模型将策略内生地划分为类似策略的集合,并允许代理学习这些集合,从而加快学习过程。 我们提供了我们模型的应用程序来预测在无限重复的囚徒困境博弈中将采用哪种记忆-1 混合策略。 我们表明,尽管允许混合策略,接近纯策略的策略总是有缺陷、严峻的触发和针锋相对的出现——这一结果与最近对人类受试者的策略选择实验定性匹配。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~