没有合适的资源?快使用搜索试试~ 我知道了~
国赛国奖1
需积分: 0 0 下载量 23 浏览量
2022-08-03
12:48:34
上传
评论
收藏 2.72MB PDF 举报
温馨提示
试读
95页
摘要游戏是智能学习的重要表现之一,本文建立了多策略 Q-learing 算法的连续动作优化模型,采用动态 ε-greedy 策略、期望学习策略与博弈策略求解玩家
资源详情
资源评论
资源推荐
基于多策略 Q-learing 算法的连续动作优化模型
摘要
游戏是智能学习的重要表现之一,本文建立了多策略 Q-learing 算法的连续动作优
化模型,采用动态 ε-greedy 策略、期望学习策略与博弈策略求解玩家穿越最优路径。
针对问题一,建立固定环境参数的连续动作优化模型,并使用 Q-learning 算法对该
模型进行优化求解。首先将附件中的地图数据转换为代自环的连通图矩阵,将问题中的
背包容量、天气因素与生存条件等题目信息刻画为约束条件,并采用精确购买策略。再
在连通图矩阵中添加时间维度使得矩阵转换为三维 Q 矩阵,并采用动态 ϵ-greedy 策略
探索更新 Q 矩阵直至其收敛。最后通过完全贪婪策略输出 Q 矩阵表示的最优动作组合,
并求出玩家每日物资剩余量。其第一关最优策略为 [1, 25, 24, 23, 23, 22, 9, 9, 15, 15, 15,
15, 13, 12 , 12, 12, 12, 12, 12, 12, 12, 12, 13,15,9, 9,21,27],所得的最大保留资金为 10590
元;第二关最优策略为 [1,9, 10, 19, 19, 27, 36, 36, 44, 53, 54, 54, 62, 55, 55, 55, 55, 55, 55,
55, 55, 55, 62, 55, 55, 55, 55, 55, 55, 56, 64],所得最大保留资金为 12460 元。
针对问题二,本问在问题一模型的基础上对天气变量随机化,并通过加入期望学习
策略的改进 Q-learning 算法使其适应随机环境参数。在三维 Q 矩阵的基础上添加天气
变量维度,并使用最优 Q 值的期望作为经验学习项更新 Q 矩阵。对于第三关,不论天
气情况如何更变,最优路径始终为 [1,4,6,13] 与 [1,5,6,13]。对于第四关,玩家通关概率
与平均收获将随高温、沙暴概率增大呈现下降趋势。
针对问题三第五关,使玩家间构成完全竞争关系,建立静态的完全信息变和博弈模
型。在命题证明的基础上求解玩家可采用的最优策略仅有
[1,4,6,13]
与
[1,5,6,13]
,当两
个玩家选择相同策略,各自保留资金均为 7640 元,当两个玩家选取不同最优路径时,各
自保留资金均为 8840 元;针对问题三第六关,建立三人合作模型,基于 Q-learning 算法
并使用谦让策略选择最优路径。仿真结果显示表示执行谦让策略后,即使天气情况较差
时部分玩家也可保持较高通关率。
本文的优点为:1. 基于期望学习策略的 Q-learning 算法可适应带有随机变量的环境
参数,并通过奖励期望值对 Q 矩阵进行更新。2. 改进 Q-learning 算法的时间复杂度为
O(n) 远优于一般群集智能优化算法,并且每个 agent 可通过不同的策略自行探索动态学
习,兼顾局部搜索与全局搜索能力。
关键词: 改进 Q-learing 动态 ϵ-greedy 策略 完全信息变和博弈 期望学习策略
1
1 问题重述
1 . 1 问题背景
在“穿越沙漠”游戏中,玩家每天可以移动至相邻区域或停留在原地,并根据天气
选择是否继续前行,在满足背包容量的前提下携带水和食物两种生活物资。玩家到达矿
山后,可以选择挖矿获取资金收益;抵达村庄时可补充物资。按照给定地图,在一定的
时间约束内抵达终点并保留最多资金的玩家获胜。
游戏中,需要分别综合考虑物资消耗与背包容量、挖矿消耗与资金收益、天气变化
与行程决策等目标与约束的关系。同时,不同关卡中具有不同的给定地图与截止日期,
需要在满足背包容量约束、时间约束等约束的条件下,使保留资金尽可能多。
本文针对不同的关卡,考察单玩家和多玩家的游戏类型,分别讨论事先是否知晓天
气状况下的玩家策略,得到不同背景下“穿越沙漠”游戏最佳取胜策略。
图 1 问题背景描述图
1 . 2 问题概述
围绕相关附件和条件要求,研究不同背景下“穿越沙漠”游戏最佳取胜策略,依次
提出以下问题:
问题一:在已知整个游戏时段的天气状况的情况下,给出单玩家最优游戏策略。
问题二:在仅知当天天气状况的情况下,给出单玩家最佳游戏策略。
问题三:考虑 n 名玩家共同游戏,共同挖矿或在同一村庄购买生存物资,则基础资
金降低或花费成本按规律增大。在不同的地图中,分别考虑已知整个游戏时段的天气状
况和仅知当天天气状况的情况,给出相应的最优游戏策略。
2
2 模型假设
(1) 假设负重情况不会影响玩家的体力消耗,即无论负重量为多少,玩家的行动能力与
食物、饮水的消耗量都不会发生改变。
(2) 当天气情况未知时,假设玩家能知晓接下来各种天气发生的大致概率。
(3) 假设在第五关时,玩家之间构成全面竞争关系,即胜利条件为最终保留资金大于另
一个玩家。
(4) 假设在第六关时,玩家为了保证通关,将默认与其他玩家进行合作,即对其他玩家
建模并执行谦让策略。
3 符号说明
符号 说明
s
t
,a
t
第 t 天时出发地点与采取的行动
weather
t
第 t 天的天气情况
consume(weather
t
) 基础水与食物所对应资金消耗
∆w(weather
t
),∆f(weather
t
) 基础饮水与食物消耗
表示执行动作
M,R 惩罚函数,奖励函数
P (weather
t
) 第 t 天天气概率函数
注:表中未说明的符号以首次出现处为准
4 问题一模型的建立与求解
4 . 1 问题描述与分析
问题一要求在天气情况事先全部已知的情况下,分别给出玩家在第一关与第二关中
的最优策略。鉴于游戏目标为在规定时间内到达终点并保留尽可能多的资金,即将优化
目标定义为到达终点时玩家的剩余资金,同时必须满足食物与水资源充足等生存约束条
件,即可得到沙漠穿行策略优化模型。由于天气情况事先全部已知,玩家可根据穿行计
划精确购买需求物资,即可将每天行动的物资消耗等价转化为资金消耗。
不难得出,此时玩家的资金变化仅源于物资消耗与挖矿收益,基于此,本文采用
Q-learning 算法优化求解最优策略。在 Q-learning 算法中,首先以算法中的 agent 表示玩
家,将其各天的所在位置与采取的行动分别定义为状态变量与动作变量,将各状态采取
行动后的净收益定义为奖励函数,并采用动态 ε − greedy 原则迭代优化 Q 矩阵直至其
收敛。
3
其思维框图如图 2 所示:
图 2 问题一思维流程图
4 . 2
固定环境参数的连续动作优化模型的建立
4 . 2 . 1 模型预处理
所有关卡地图可以表示为带自环的无向连通图,记为 G(V, E, W )。设连通图阶数为
n,则每个区域为节点 v
i
∈ V (i = 1, 2, ..., n),相邻区域间通道可以表示为边 e
j
∈ E(j =
1, 2, ...., m),权重矩阵为 W ,存放玩家经过相邻通道或停留在原先区域的消耗量代价。
连通图可表示如图 3 (b) 所示
(a) 初始关卡地图 (b) 关卡连通图 (c) 连通图矩阵
图 3 问题一图论模型示意图
如图,绿色边表示两地点间存在的可行走路径。为表示玩家停留于原先区域的行为,
使每个节点带自环,即图中的蓝色虚线边,且自环边也赋有对应消耗权重。玩家在矿山
停留时,为区别休息与挖矿的行为,在连通图中矿山节点上加入两种自环边分别表示挖
4
矿与休息行为,即当玩家进入矿山时,选择挖矿行为即选择橙色自环,选择休息即选择
蓝色自环。
之后即可将联通图转换为连通图矩阵如图 3 (c) 所示,其中深色块表示对应两点相
连,无色色块表示对应两点没有直接相连,且矿山节点后存在一额外色块表示挖矿动作
代表的自环通路。
4 . 2 . 2 决策变量
设玩家经过 n 天旅行到达终点,则行程路线由玩家经过的节点序列构成,路线的每
个元素为途经的节点序号 s
t
(t = 1, 2, ..., n),采用动作为 a
t
(t = 1, 2, ..., n)。记截止时间
为 T ,则决策变量可以表示为
(S
n+1
|A
n
) =
s
1
s
2
... s
n
s
n+1
|a
1
a
2
... a
n
, (1)
1 ≤ n ≤ T, (2)
其中各个 s
t
表示玩家第 t 天时玩家的出发地点,也即是第 t − 1 天的停留地点,a
t
表示
第 t 天玩家所采取的行动,包括行动、停留以及挖矿,其满足
s
t+1
= s
t
a
t
.
定义符号
表示执行动作,即 s
t
在执行动作 a
t
后即转化为状态 s
t+1
。特别的,s
1
与 s
n+1
表示游戏开始时玩家在初始起点位置与第 n 天时玩家须到达终点位置,即须满
足
s
1
= s
outset
,
s
n+1
= s
destination
.
4 . 2 . 3 约束条件
问题中,由于生存物资的消耗与补给与行程密切相关,而行程路线由天气情况决定,
同时天气情况影响生存物资的消耗,故需要整理约束条件的分类,综合考虑几大约束的
关系,并从多个维度考虑各约束条件对行程决策的影响。
1. 行动受天气约束的刻画
定义第 t 天的天气变量为 weather
t
= {1, 2, 3},即沙暴、高温与晴朗时的天气变量
weather
t
的值分别为 1、2 与 3。此时动作变量需满足约束如下
|a
t
| ⩽
weather
t
2
,
5
剩余94页未读,继续阅读
萱呀
- 粉丝: 26
- 资源: 354
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0