【免费】游戏AI——DQN1_icmdqn资源-CSDN文库

需积分: 0 152 浏览量 2022-08-08 21:47:47 上传评论收藏 195KB DOCX 举报

资源详情

资源评论

资源推荐

一．DRL

原因：

在普通的维度不高，且离散的时候，Q-Learning 算法使用 Q-Table 矩阵存储状态

当维度变高，状态和动作空间高维连续的时候使用，Q-Table 存储不了

解决办法：函数拟合。

Q(s,a;θ)≈Q′(s,a)

而深度神经网络可以自动提取复杂特征，因此，面对高维且连续的状态使用深度

神经网络最合适不过了。

DRL 是将深度学习（DL）与强化学习（RL）结合，直接从高维原始数据学习控制策略。

而 DQN 是 DRL 的其中一种算法，它要做的就是将卷积神经网络（CNN）和 Q-Learning

结合起来，CNN 的输入是原始图像数据（作为状态 State），输出则是每个动作 Action

对应的价值评估 Value Function（Q 值）。

二．DL 与 RL 的结合

Q-Learning：

Q∗(s,a)=Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a))

DQN 的 Loss Function 为：

L(θ)=E[(TargetQ−Q(s,a;θ))2]

其中 θ 是网络参数，目标为

TargetQ=r+γmaxa′Q(s′,a′;θ)

三．解决的问题

（1）经验池：经验池的功能主要是解决相关性及非静态分布问题。具体做法是把每

个时间步agent与环境交互得到的转移样本 (st,at,rt,st+1) 储存到回放记忆单元，

要训练时就随机拿出一些（minibatch）来训练。（其实就是将游戏的过程打成

碎片存储，训练时随机抽取就避免了相关性问题）

（2）目标网络：在 Nature 2015 版本的 DQN 中提出了这个改进，使用另一个网络

（这里称为 TargetNet）产生 Target Q 值。具体地，Q(s,a;θi) 表示当前网络

MainNet 的输出，用来评估当前状态动作对的值函数；Q(s,a;θ−i) 表示 TargetNet

的输出，代入上面求 TargetQ 值的公式中得到目标 Q 值。根据上面的 Loss

Function 更新 MainNet 的参数，每经过 N 轮迭代，将 MainNet 的参数复制给

TargetNet。

引入 TargetNet 后，再一段时间里目标 Q 值使保持不变的，一定程度降低了当

前 Q 值和目标 Q 值的相关性，提高了算法稳定性。

四．流程图

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论0

内容反馈

甜甜不加糖

粉丝: 30
资源: 323

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip