Tough-Game-Reinforcement-Learning-资源-CSDN文库

共172个文件

model：134个

desktop-d76htjg：15个

py：9个

需积分: 10 39 浏览量 2021-03-13 19:39:31 上传评论收藏 1005.22MB ZIP 举报

《艰难的游戏强化学习》是基于Python的项目，旨在探索如何在具有挑战性的环境中应用强化学习算法。强化学习是一种机器学习方法，通过与环境的交互，让智能体学习如何采取最佳行动以最大化长期奖励。在这个项目中，我们将深入理解并实践强化学习的核心概念，包括Q学习、SARSA、DQN等算法。我们来看Python在强化学习中的作用。Python作为一种高级编程语言，具有简洁明了的语法和丰富的库支持，是实施机器学习和强化学习的理想选择。在本项目中，你将用到如NumPy用于数值计算，以及如gym这样的库，它提供了多种游戏环境供强化学习算法训练和测试。强化学习的基本框架通常包括四个要素：状态（State）、动作（Action）、奖励（Reward）和策略（Policy）。在“艰难的游戏”环境中，智能体会在不同的状态下执行动作，并根据其结果接收到奖励或惩罚。智能体的目标是学习一个策略，使其在未来能获得最大的累积奖励。 Q学习是一种离策略的强化学习算法，它通过维护一个Q表来估计每个状态动作对的未来奖励期望。在本项目中，你将看到如何实现Q学习算法，如何更新Q表，并逐步优化智能体的行为。 SARSA（State-Action-Reward-State-Action）则是一种在线、近策略的学习算法，它在每一步更新策略，根据当前状态、动作、奖励和下一个状态来调整。SARSA更加实际，因为它考虑了智能体在学习过程中策略的动态变化。 DQN（Deep Q-Network）是深度学习与Q学习的结合，它利用神经网络来近似Q值函数，从而解决了Q学习在高维度状态空间中的局限性。在本项目中，你将学习如何构建并训练DQN模型，以及如何使用经验回放缓冲区（Experience Replay Buffer）来提高学习效率。此外，你还将接触到其他强化学习的重要概念，如ε-greedy策略、目标网络、衰减的学习率等，这些都是确保智能体能够在复杂环境中有效学习的关键技术。在实践中，你将面临如何选择合适的环境、如何调整超参数、如何平衡探索与利用等问题。通过解决这些问题，你不仅会掌握强化学习的基本理论，还会增强解决实际问题的能力。《艰难的游戏强化学习》项目将引导你深入强化学习的世界，通过Python编程和实际游戏环境的训练，你将能够理解和应用强化学习算法来解决具有挑战性的问题。无论你是初学者还是有一定基础的学习者，这个项目都将提供宝贵的经验和洞见，帮助你在人工智能领域更进一步。

资源推荐

资源详情

资源评论

收起资源包目录

Tough-Game-Reinforcement-Learning- （172个子文件）

events.out.tfevents.1605671162.DESKTOP-D76HTJG 1.7MB

events.out.tfevents.1605677716.DESKTOP-D76HTJG 1.7MB

events.out.tfevents.1608404103.DESKTOP-D76HTJG 757KB

events.out.tfevents.1608497085.DESKTOP-D76HTJG 304KB

events.out.tfevents.1605670819.DESKTOP-D76HTJG 42KB

events.out.tfevents.1608496488.DESKTOP-D76HTJG 6KB

events.out.tfevents.1608403651.DESKTOP-D76HTJG 2KB

events.out.tfevents.1605670626.DESKTOP-D76HTJG 1KB

events.out.tfevents.1605670721.DESKTOP-D76HTJG 1KB

events.out.tfevents.1608495497.DESKTOP-D76HTJG 916B

events.out.tfevents.1608494791.DESKTOP-D76HTJG 561B

events.out.tfevents.1608494688.DESKTOP-D76HTJG 312B

events.out.tfevents.1608495450.DESKTOP-D76HTJG 312B

events.out.tfevents.1608494747.DESKTOP-D76HTJG 312B

events.out.tfevents.1608403471.DESKTOP-D76HTJG 229B

.gitignore 255B

ML term project.iml 284B

README.md 102B

Game_size_30__4950____-8.00max_-132.76avg_-389.00min__1608425626.model 13.63MB

Game_size_30__3800___-22.00max_-158.80avg_-461.00min__1608422270.model 13.63MB

Game_size_30__5250___-10.00max_-145.10avg_-412.00min__1608426463.model 13.63MB

Game_size_30__8100____-4.00max__-70.96avg_-406.00min__1608433934.model 13.63MB

Game_size_30__6000____-8.00max__-90.56avg_-405.00min__1608428619.model 13.63MB

Game_size_30__7100____-5.00max_-111.30avg_-483.00min__1608431555.model 13.63MB

Game_size_56X46__40__-200.00max_-200.00avg_-200.00min__1608496780.model 13.63MB

Game_size_30__4700____-6.00max_-155.42avg_-485.00min__1608424846.model 13.63MB

Game_size_30__8000____-5.00max__-92.56avg_-374.00min__1608433747.model 13.63MB

Game_size_30__2850___-17.00max_-163.92avg_-489.00min__1608418947.model 13.63MB

Game_size_30__5700____-4.00max_-119.00avg_-425.00min__1608427699.model 13.63MB

Game_size_30__7500____-5.00max__-92.06avg_-421.00min__1608432580.model 13.63MB

Game_size_30__7800____-4.00max__-79.60avg_-497.00min__1608433295.model 13.63MB

Game_size_30__7550____-6.00max__-81.70avg_-416.00min__1608432688.model 13.63MB

Game_size_30__8700____-3.00max__-74.08avg_-355.00min__1608435267.model 13.63MB

Game_size_30__3650___-22.00max_-152.30avg_-426.00min__1608421767.model 13.63MB

Game_size_30__7400____-3.00max__-95.14avg_-468.00min__1608432338.model 13.63MB

Game_size_30__3400___-17.00max_-187.56avg_-424.00min__1608420952.model 13.63MB

Game_size_30__3750___-16.00max_-160.96avg_-472.00min__1608422095.model 13.63MB

Game_size_30__5300____-7.00max_-139.12avg_-440.00min__1608426628.model 13.63MB

Game_size_30__8200____-4.00max__-87.02avg_-335.00min__1608434141.model 13.63MB

Game_size_30__7600____-6.00max_-102.56avg_-371.00min__1608432810.model 13.63MB

Game_size_30__8550____-3.00max__-93.16avg_-460.00min__1608434933.model 13.63MB

Game_size_30__4400___-10.00max__-86.14avg_-349.00min__1608423995.model 13.63MB

Game_size_30__6250____-6.00max_-108.68avg_-440.00min__1608429266.model 13.63MB

Game_size_30__7250____-6.00max_-116.76avg_-433.00min__1608431979.model 13.63MB

Game_size_30__7450____-4.00max__-77.76avg_-390.00min__1608432464.model 13.63MB

Game_size_30__4550___-10.00max_-156.88avg_-491.00min__1608424389.model 13.63MB

Game_size_30__5000____-9.00max_-125.70avg_-355.00min__1608425752.model 13.63MB

Game_size_30__5950____-6.00max_-123.00avg_-453.00min__1608428472.model 13.63MB

Game_size_30__2900___-31.00max_-183.04avg_-442.00min__1608419142.model 13.63MB

Game_size_30__8050____-4.00max__-57.44avg_-423.00min__1608433834.model 13.63MB

Game_size_30__3300___-14.00max_-177.48avg_-470.00min__1608420642.model 13.63MB

Game_size_30__5100___-12.00max_-122.66avg_-452.00min__1608426046.model 13.63MB

Game_size_30__8350____-5.00max__-80.42avg_-350.00min__1608434479.model 13.63MB

Game_size_30__5750____-6.00max_-127.84avg_-444.00min__1608427876.model 13.63MB

Game_size_30__6500____-7.00max_-104.78avg_-391.00min__1608429892.model 13.63MB

Game_size_30__3450___-14.00max_-183.56avg_-449.00min__1608421112.model 13.63MB

Game_size_30__2700___-21.00max_-184.26avg_-478.00min__1608418357.model 13.63MB

Game_size_30__4600___-11.00max_-127.74avg_-451.00min__1608424520.model 13.63MB

Game_size_30__8400____-4.00max_-110.14avg_-458.00min__1608434594.model 13.63MB

Game_size_30__5650___-10.00max_-131.50avg_-458.00min__1608427560.model 13.63MB

Game_size_30__5500____-7.00max__-89.48avg_-401.00min__1608427150.model 13.63MB

Game_size_30__5450____-8.00max_-120.78avg_-463.00min__1608427015.model 13.63MB

Game_size_30__8500____-3.00max__-74.68avg_-372.00min__1608434824.model 13.63MB

Game_size_30__7000____-5.00max__-84.22avg_-444.00min__1608431300.model 13.63MB

Game_size_30__6150____-8.00max_-123.26avg_-423.00min__1608428999.model 13.63MB

Game_size_30__4500___-16.00max_-129.54avg_-431.00min__1608424262.model 13.63MB

Game_size_30__6400____-5.00max__-83.14avg_-387.00min__1608429624.model 13.63MB

Game_size_30__8600____-6.00max__-86.60avg_-377.00min__1608435054.model 13.63MB

Game_size_30__5800___-10.00max_-157.86avg_-458.00min__1608428026.model 13.63MB

Game_size_30__6600____-4.00max_-116.84avg_-405.00min__1608430214.model 13.63MB

Game_size_30__6850____-3.00max_-111.08avg_-425.00min__1608430861.model 13.63MB

Game_size_30__7700____-8.00max_-131.34avg_-389.00min__1608433051.model 13.63MB

Game_size_30__5600____-4.00max_-143.02avg_-477.00min__1608427431.model 13.63MB

Game_size_30__7350____-5.00max_-102.68avg_-456.00min__1608432217.model 13.63MB

Game_size_30__3850____-9.00max_-119.98avg_-447.00min__1608422443.model 13.63MB

Game_size_30__6750____-6.00max_-111.26avg_-393.00min__1608430582.model 13.63MB

Game_size_30__8650____-4.00max_-109.72avg_-418.00min__1608435157.model 13.63MB

Game_size_30__6300____-5.00max__-80.04avg_-429.00min__1608429382.model 13.63MB

Game_size_30__6050____-6.00max_-143.38avg_-418.00min__1608428756.model 13.63MB

Game_size_30__8450____-5.00max__-93.20avg_-412.00min__1608434715.model 13.63MB

Game_size_30__4450___-12.00max_-134.92avg_-409.00min__1608424128.model 13.63MB

Game_size_30__4850___-13.00max_-115.72avg_-439.00min__1608425339.model 13.63MB

Game_size_30__4000___-13.00max_-118.02avg_-422.00min__1608422858.model 13.63MB

Game_size_30__3600___-13.00max_-160.04avg_-496.00min__1608421625.model 13.63MB

Game_size_30__4900___-10.00max_-125.10avg_-374.00min__1608425499.model 13.63MB

Game_size_30__6700____-7.00max_-115.78avg_-410.00min__1608430468.model 13.63MB

Game_size_30__6450____-9.00max_-101.22avg_-457.00min__1608429754.model 13.63MB

Game_size_30__3100___-24.00max_-185.08avg_-480.00min__1608419914.model 13.63MB

Game_size_30__5050___-12.00max_-138.08avg_-454.00min__1608425891.model 13.63MB

Game_size_30__7750____-4.00max_-124.64avg_-495.00min__1608433166.model 13.63MB

Game_size_30__7050____-7.00max_-118.64avg_-393.00min__1608431428.model 13.63MB

Game_size_30__4350___-17.00max_-147.32avg_-400.00min__1608423836.model 13.63MB

Game_size_30__7150___-11.00max_-123.70avg_-450.00min__1608431715.model 13.63MB

Game_size_30__4050___-10.00max_-130.68avg_-417.00min__1608422984.model 13.63MB

Game_size_30__3950___-19.00max_-126.72avg_-488.00min__1608422731.model 13.63MB

Game_size_30__3350___-15.00max_-171.28avg_-462.00min__1608420795.model 13.63MB

Game_size_30__7650____-5.00max__-90.86avg_-379.00min__1608432935.model 13.63MB

Game_size_30__7900____-7.00max_-112.92avg_-428.00min__1608433539.model 13.63MB

Game_size_30__5350___-11.00max__-97.90avg_-465.00min__1608426766.model 13.63MB

Game_size_30__5150____-8.00max_-144.28avg_-480.00min__1608426208.model 13.63MB

共 172 条

评论收藏

内容反馈

丰雅

粉丝: 742
资源: 4580

Tough-Game-Reinforcement-Learning-

A Simple but Tough-to-Beat Baseline for Sentence Embeddings.pdf

Unit5-Itx27s-Tough-at-the-Top.pdf

tough-cookie-framework:私人学习项目

tough-cookie:RFC6265 Cookies和CookieJar for Node.js

tough-cookie-web-storage-store:基于Web存储API（localStorage和sessionStorage）的硬cookie库的cookie存储

axios-cookiejar-support:添加对cookie的强力cookie支持

A-very-tough-little-program.zip_little

rh-nodejs6-nodejs-tough-cookie-2.3.3-2.el7.noarch.rpm

rh-nodejs6-nodejs-tough-cookie-2.3.3-1.el7.noarch.rpm

rh-nodejs6-nodejs-tough-cookie-2.3.2-3.el7.noarch.rpm

Python－Machine－Learning－2nd－Edition

前端项目-cookiejar.zip

Hands On Transfer Learning with Py Implement Advanced DL and NN Models Using T,K

tough-drufonouf:使用DappStarter启动您的区块链开发

FLAC-TOUGH网格转换

Python Machine Learning

TOUGH

Minecraft-Mod-语言包：发布网站

Python Machine Learning.pdf 无水印书签修正完美版 2015

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

大麦网抢票脚本【Python脚本】

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

Python学习笔记(干货) 中文PDF完整版.pdf

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

抢购haiwei.rar

Python 八股文.pdf

Python基于机器学习实现的股票价格预测、股票预测源码+数据集，机器学习大作业

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料