基于python强化学习的逃生游戏源码(含PDF报告+答辩PPT).zip资源-CSDN文库

共172个文件

xml：160个

py：4个

rl-stu23-584cf5bb6-49nhb：2个

版权申诉

毕业设计

课程设计

课程大作业

2 浏览量 2023-12-28 18:53:58 上传评论收藏 14.85MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于python强化学习的逃生游戏源码(含PDF报告+答辩PPT).zip （172个子文件）

checkpoint 257B

model.data-00000-of-00001 4.84MB

model.index 2KB

model.meta 209KB

大作业报告.pdf 416KB

课堂展示.pptx 4.15MB

Train.py 35KB

Test.py 22KB

malmoutils.py 5KB

plotting.py 3KB

events.out.tfevents.1637901254.rl-stu23-584cf5bb6-49nhb 40.68MB

events.out.tfevents.1637939106.rl-stu23-584cf5bb6-49nhb 10.58MB

Maze32.xml 6KB

Maze143.xml 6KB

Maze140.xml 6KB

Maze35.xml 6KB

Maze132.xml 6KB

Maze141.xml 6KB

Maze34.xml 6KB

Maze134.xml 6KB

Maze135.xml 6KB

Maze133.xml 6KB

Maze33.xml 6KB

Maze142.xml 6KB

Maze79.xml 6KB

Maze129.xml 6KB

Maze108.xml 6KB

Maze110.xml 6KB

Maze104.xml 6KB

Maze13.xml 6KB

Maze0.xml 6KB

Maze77.xml 6KB

Maze2.xml 6KB

Maze103.xml 6KB

Maze82.xml 6KB

Maze113.xml 6KB

Maze81.xml 6KB

Maze21.xml 6KB

Maze120.xml 6KB

Maze122.xml 6KB

Maze114.xml 6KB

Maze107.xml 6KB

Maze80.xml 6KB

Maze8.xml 6KB

Maze100.xml 6KB

Maze15.xml 6KB

Maze14.xml 6KB

Maze131.xml 6KB

Maze7.xml 6KB

Maze109.xml 6KB

Maze106.xml 6KB

Maze11.xml 6KB

Maze83.xml 6KB

Maze95.xml 6KB

Maze128.xml 6KB

Maze20.xml 6KB

Maze76.xml 6KB

Maze94.xml 6KB

Maze121.xml 6KB

Maze4.xml 6KB

Maze105.xml 6KB

Maze10.xml 6KB

Maze115.xml 6KB

Maze9.xml 6KB

Maze5.xml 6KB

Maze130.xml 6KB

Maze92.xml 6KB

Maze1.xml 6KB

Maze6.xml 6KB

Maze101.xml 6KB

Maze102.xml 6KB

Maze3.xml 6KB

Maze111.xml 6KB

Maze12.xml 6KB

Maze123.xml 6KB

Maze78.xml 6KB

Maze112.xml 6KB

Maze23.xml 6KB

Maze22.xml 6KB

Maze93.xml 6KB

Maze25.xml 5KB

Maze70.xml 5KB

Maze43.xml 5KB

Maze56.xml 5KB

Maze84.xml 5KB

Maze91.xml 5KB

Maze37.xml 5KB

Maze59.xml 5KB

Maze149.xml 5KB

Maze26.xml 5KB

Maze87.xml 5KB

Maze46.xml 5KB

Maze147.xml 5KB

Maze54.xml 5KB

Maze126.xml 5KB

Maze36.xml 5KB

Maze124.xml 5KB

Maze38.xml 5KB

Maze96.xml 5KB

Maze69.xml 5KB

共 172 条

@19373545 彭兴宇

1 逃生游戏

1.1 游戏介绍

给定一个随机的5×5的地图，包含一个终点（emerald_block），若干障碍（sea_lantern），以及可以

蔓延开的火（fire），目标是让史蒂夫能学会走到终点并尽量不要碰到火。

1.2 DQN

1.2.1 DQN的本质

DQN的本质是将Q-Learning中的Q函数的存储形式由表格转变为神经网络，以适应状态或动作连续、复

杂的应用场景。

对于Q函数而言，我们每向其输入一个（状态，动作）对，Q函数就会输出其相应的估值。在Q-

Learning中，我们以状态为纵轴，以动作为横轴，构建一表格，以实现这一映射。

但表格法有这样的问题：

①只能处理离散分布的输入，不能处理连续分布的输入。当状态或动作是连续变化的值的时候，就会有

无数多的状态或无数多的动作，此时表格便是不可行的；

②即使输入是离散的，但当可能的状态、可行的动作过于复杂时，表格也会极为庞大，其存储会占据极

大空间，也是不实用的。

那么为什么DQN用神经网络代替表格后，就能解决以上问题呢？

①神经网络天然得能处理连续的输入值；

②神经网络的本质也是一个函数，对其的训练就是调整其参数使之能够拟合我们的目标。请注意，这些

参数是为所有输入所共享的，也即我们只用一定的参数量就能实现对所有（状态，动作）对的估值的计

算——与之相对的，Q-Learning其实相当于为每一对（状态，动作）对都做了一个独立的到估值的映

射，因为对于每一个（状态，动作）对，Q表中都会为其填写一个估值。总而言之，估值计算的参数共

享让DQN能够使用更小的空间来表示Q函数。

那DQN有无缺点呢？

当然有。由于神经网络的参数为所有输入的（状态，动作）对所共享，因此在拟合其中某个输入对时，

对另一输入对拟合的误差可能会变大——捡了这个、丢了那个。我们是如何权衡的呢？像所有的神经网

络一样，去计算一批样本的某种平均误差指标，再进行反向传播更新参数，以平衡对各种不同输入对的

关照程度。

DQN的神经网络结构的设计极为重要。设计得太过简单，DQN就无法很好地拟合Q函数；设计得太过复

杂，泛化能力就会降低。

DQN对reward的设计提出了高要求。不合理的reward设置会导致神经网络的反向传播中出现梯度爆炸

或梯度消失。一种经验性的设计方式是将reward设计在一个较小的、在0附近的区间内，如[-1,1]，以防

止出现极大的数，导致梯度爆炸；对于此时梯度消失，可以通过引入残差解决。

本实验中基于tensorflow框架设计的神经网络结构如下：

行为奖励

移动一步 -1

死亡 -10

找到终点 200

进入火中 -50

未死亡但超时 -5

十分经典的三个卷积层后接两个全连接层了。其中X为以史蒂夫为中心获取的9×9的地图（经过一定预处

理，如将方块的字符名映射到数字）。输出为上、下、左、右各自的概率。

本实验的reward设置为：

1.2.2 两大技巧：replay buffer与fixed target

replay buffer

由于游戏的连续性，我们按时间采集到的样本也是连续的。如前文所言，所有的输入是共享网络参数

的，又由于按时间采集到的连续的状态彼此之间十分相似，如果直接把这些连续的样本输入网络训练，

就会导致网络偏向于这些大量出现的相似样本，而对其他样本的估值不准。

类似的问题，是神经网络训练中的通病；而针对这一通病的解决办法，最常用的便是随机打乱训练样本

的数据。此处的replay buffer其实就完成了这样一件事：将历史上采集到的样本存储在样本池中，在每

次训练网络时，从样本池中随机选择batch个样本作为训练集，就可以让用于网络训练的样本在样本空间

上的分布更加均匀，解决神经网络偏向特定类别样本的问题。

在本实验中，我们用列表replay_memory来充当样本池。其可容纳500000个样本；当包含的样本数超

过50时即开始训练（我们训练的一个批次为32）；当充满后，会丢掉最早的样本，以给新采到的样本腾

出空间。

fixed target

训练神经网络，需要有样本特征X和样本标签y，但在本DQN的训练过程中并没有现成的样本标签。

怎么办呢？

在传统的Q-Learning中，我们是按贝尔曼方程去做Q表的迭代，从而让agent的表现越来越好——贝尔曼

方程可以带领模型变得更好。

于是，我们尝试用贝尔曼方程来生成我们的标签。具体做法是，当收到输入样本特征时，我们可

以通过已有的网络去得到公式中所需的，进而可得到贝尔曼方程对的估值，也即样本标

签。这样我们就有可用的样本标签了。

那fixed target是做什么的呢？

conv1 = tf.contrib.layers.conv2d(X, 32, 8, 4, activation_fn=tf.nn.relu)

conv2 = tf.contrib.layers.conv2d(conv1, 64, 4, 2, activation_fn=tf.nn.relu)

conv3 = tf.contrib.layers.conv2d(conv2, 64, 3, 1, activation_fn=tf.nn.relu)

flattened = tf.contrib.layers.flatten(conv3)

fc1 = tf.contrib.layers.fully_connected(flattened, 512)

self.predictions = tf.contrib.layers.fully_connected(fc1, len(actionSet))

为了让训练过程更加稳定，我们让神经网络参数更新一定次数后，再更新样本标签，这便是fixed

target。不用fixed target，target每一轮的位置都不一样，导致网络参数很难朝一个稳定的方向持续更

新；应用fixed target，则在下次更新标签前，target的位置都不变，神经网络的参数就能在这样一定轮

次内朝着target稳定地更新。

在本实验中，我们用q_estimator代表我们训练的网络，用target_estimator来代表我们的target。每次

更新网络参数时，我们把相同的样本分别输入这两个网络，q_estimator输出的即为模型的预测值，

target_estimator输出的值用于贝尔曼方程的计算，即可得到样本标签，进而我们可以进行误差计算、

反向传播。q_estimator持续更新，target_estimator每隔100轮更新一次（更新时将q_estimator的参数

复制给target_estimator即可）。

1.3 不要回头

在做之前的DQN时我们就有亲身体会：这agent整条路上都还学得挺好，就爱在个别的地方反复横跳。

当时我的解决办法是不允许agent走回头路——即走到已经走过的地方。这次，我们采用类似的解决办

法，不过也要更结合该实验的实际。

迎面而来的最大的实际竟然是同步问题。实验中返回的地图是以史蒂夫为中心的9×9的地图，因此我们

无法直接记录史蒂夫的坐标来确定某个地方他是否走过——他始终在中间。但注意到我们的地图中只有

一个终点，也即返回的地图中有且只有一个emerald_block，我们通过记录emerald_block的坐标就可以

判断史蒂夫到过什么地方了。然而尝试一下后发现，这个方法并不能准确记录史蒂夫到过的地方。将相

关信息打印出后发现，原因是这边代码的运行和那边史蒂夫的行为不同步——也即将移动指令输入

Minecraft后，那边史蒂夫还没完成这次移动，这边代码就已经又跑好几轮了。解决办法是在向史蒂夫发

送移动指令后面加一句time.sleep(0.1)，给史蒂夫时间去完成这次移动（当然事实上这样或者尝试更大

的暂停后，还是偶尔会有不同步的情况发生。此处0.1的使用是一种折衷的结果——不同步的情况已经很

少发生了，但又不至于让训练过程变太慢）。

在同步问题解决后，每次游戏开始后，我们会初始化一个空列表my_path用于记录史蒂夫走过的地方。

史蒂夫每想要走一步时，我们就可以根据他的当前位置算出他的下一位置在哪里——如果下一位置在

my_path里，那就不向史蒂夫传指令；如果下一位置不在my_path里，就向史蒂夫发送指令让他移动，

并且把这下一位置加入my_path中。（注意这些位置并不是史蒂夫的位置，而是用emerald_block相对

于史蒂夫的位置来表示的）。

有一个问题是，如果史蒂夫走到死胡同了怎么办？解决办法是，当检测到史蒂夫连续10轮没有改变位置

后，就清空my_path，让史蒂夫可以走出死胡同。

1.4 训练与测试

1.4.1 训练

总共有160张地图。总共进行1000局游戏的训练。

每次训练时，我们从160张地图中随机抽取一张地图并训练10局，于是事实上只有100张图被用于训练。

当然会有ε-greedy的设置，训练过程中ε从1逐渐降至0.1。

1.4.2 测试

测试仍然是在这160图上进行的。注意到这160张图中还有60张模型是完全没见过的，因此这对我们模型

的泛化能力提出了一定考验。

为了提升模型的泛化能力，我们在测试时设置ε=0.2，保留一定的随机性。

为了排除偶然因素的干扰，对于每张图，我们给模型两次尝试机会。

测试过程录制了视频，链接在此：https://www.bilibili.com/video/BV1ES4y1R7HX

评论收藏

内容反馈

版权申诉

北航程序员小C

粉丝: 2222
资源: 1823

基于python强化学习的逃生游戏源码(含PDF报告+答辩PPT).zip

基于python强化学习的俄罗斯方块游戏源码(含PDF报告+答辩PPT).zip

基于GAN深度学习生成对抗网络进行行人重识别python源码+实验报告+答辩PPT.zip

城市降雨对地铁短期OD客流的影响路径与机制研究项目python源码+数据集+答辩PPT.zip

基于无监督学习模型Monodepth2实现单目视觉物体三维重建python源码+数据+答辩PPT.zip

基于UCI Heart Disease数据集的心脏病分析python源码+数据集+分析报告+答辩PPT.zip

python毕业设计- 基于深度学习的视觉问答系统源码+文档说明+答辩PPT.zip

基于python开发的成都租房信息系统源码+答辩PPT+报告.zip

基于python实现的财务报表欺诈检测源码(含PPT+报告+数据）.zip

课程设计基于Python机器学习的贷中风险预测源码+答辩PPT+说明文档.zip

人工智能课程作业基于python实现的冬奥会领域问答机器人源码+部署说明+实验报告+答辩PPT.zip

基于强化学习的格斗游戏python实现源码+答辩PPT+课设报告(课程设计).zip

基于python的春节电影信息爬取与数据可视化分析系统源码+详细注释+答辩PPT+设计报告.zip

基于机器学习的贷中风险预测模型python源码+项目说明+答辩PPT.zip

期末大作业基于对数几率回归模型实现西瓜鸢尾花识别分类python源码+作业报告+详细注释.zip

NLP项目基于词典的分词方法python源码+详细注释+实验报告+数据集.zip

基于知识图谱的推荐算法MCRec的python实现源码+项目说明+数据集.zip

34个经典javaweb项目实例.zip

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

毕业设计 springBoot人力资源管理系统+毕业论文+前后端源代码

毕业设计：舆情监测系统（SpringBoot+NLP）

基于spring boot的小区物业管理系统源码+论文+答辩ppt

计算机毕业设计：Flask股票数据采集分析可视化系统 python+爬虫+金融数据

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

基于51单片机的智能电子秤系统设计(含代码仿真及论文)无需积分！

OpenCV和YOLOv8 实时车速检测+车辆检测跟踪系统 深度学习 测速 计算机视觉 计算机毕业设计

Python爬取智联招聘网站数据，2023.10.31测试，可跑

不错的可用来练手、课程设计、毕业设计的Javaweb项目源码：仓库管理系统.rar

最新资源

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

OpenCV和YOLOv8 实时车速检测+车辆检测跟踪系统深度学习测速计算机视觉计算机毕业设计