【免费】国赛国奖1资源-CSDN文库

需积分: 0 23 浏览量 2022-08-03 12:48:34 上传评论收藏 2.72MB PDF 举报

资源详情

资源评论

资源推荐

基于多策略 Q-learing 算法的连续动作优化模型

摘要

游戏是智能学习的重要表现之一，本文建立了多策略 Q-learing 算法的连续动作优

化模型，采用动态 ε-greedy 策略、期望学习策略与博弈策略求解玩家穿越最优路径。

针对问题一，建立固定环境参数的连续动作优化模型，并使用 Q-learning 算法对该

模型进行优化求解。首先将附件中的地图数据转换为代自环的连通图矩阵，将问题中的

背包容量、天气因素与生存条件等题目信息刻画为约束条件，并采用精确购买策略。再

在连通图矩阵中添加时间维度使得矩阵转换为三维 Q 矩阵，并采用动态 ϵ-greedy 策略

探索更新 Q 矩阵直至其收敛。最后通过完全贪婪策略输出 Q 矩阵表示的最优动作组合，

并求出玩家每日物资剩余量。其第一关最优策略为 [1, 25, 24, 23, 23, 22, 9, 9, 15, 15, 15,

15, 13, 12 , 12, 12, 12, 12, 12, 12, 12, 12, 13,15,9, 9,21,27]，所得的最大保留资金为 10590

元；第二关最优策略为 [1,9, 10, 19, 19, 27, 36, 36, 44, 53, 54, 54, 62, 55, 55, 55, 55, 55, 55,

55, 55, 55, 62, 55, 55, 55, 55, 55, 55, 56, 64]，所得最大保留资金为 12460 元。

针对问题二，本问在问题一模型的基础上对天气变量随机化，并通过加入期望学习

策略的改进 Q-learning 算法使其适应随机环境参数。在三维 Q 矩阵的基础上添加天气

变量维度，并使用最优 Q 值的期望作为经验学习项更新 Q 矩阵。对于第三关，不论天

气情况如何更变，最优路径始终为 [1,4,6,13] 与 [1,5,6,13]。对于第四关，玩家通关概率

与平均收获将随高温、沙暴概率增大呈现下降趋势。

针对问题三第五关，使玩家间构成完全竞争关系，建立静态的完全信息变和博弈模

型。在命题证明的基础上求解玩家可采用的最优策略仅有

[1,4,6,13]

与

[1,5,6,13]

，当两

个玩家选择相同策略，各自保留资金均为 7640 元，当两个玩家选取不同最优路径时，各

自保留资金均为 8840 元；针对问题三第六关，建立三人合作模型，基于 Q-learning 算法

并使用谦让策略选择最优路径。仿真结果显示表示执行谦让策略后，即使天气情况较差

时部分玩家也可保持较高通关率。

本文的优点为：1. 基于期望学习策略的 Q-learning 算法可适应带有随机变量的环境

参数，并通过奖励期望值对 Q 矩阵进行更新。2. 改进 Q-learning 算法的时间复杂度为

O(n) 远优于一般群集智能优化算法，并且每个 agent 可通过不同的策略自行探索动态学

习，兼顾局部搜索与全局搜索能力。

关键词：改进 Q-learing 动态 ϵ-greedy 策略完全信息变和博弈期望学习策略

1

剩余94页未读，继续阅读

评论0

内容反馈

萱呀

粉丝: 26
资源: 354

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip