基于深度强化学习的德州扑克AI算法优化.zip资源-CSDN文库

共165个文件

py：58个

pth：48个

txt：18个

版权申诉

193 浏览量 2024-05-11 17:17:28 上传评论收藏 13.9MB ZIP 举报

本论文题目为基于深度强化学习的德州扑克AI算法优化强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一。它主要用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据，只有奖励信号。强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。强化学习在工程领域的应用也相当广泛。例如，Facebook提出了开源强化学习平台Horizon，该平台利用强化学习来优化大规模生产系统。在医疗保健领域，RL系统能够为患者提供治疗策略，该系统能够利用以往的经验找到最优的策略，而无需生物系统的数学模型等先验信息，这使得基于RL的系统具有更广泛的适用性。总的来说，强化学习是一种通过智能体与环境交互，以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。

资源推荐

资源详情

资源评论

收起资源包目录

基于深度强化学习的德州扑克AI算法优化.zip （165个子文件）

performance.csv 25B

.gitignore 2KB

launch.json 477B

settings.json 243B

card2index.json 55B

README.md 2KB

regrets.pkl 3.22MB

average_policy.pkl 3.22MB

regrets.pkl 1.35MB

average_policy.pkl 1.35MB

average_policy.pkl 47KB

regrets.pkl 47KB

regrets.pkl 18KB

average_policy.pkl 18KB

policy.pkl 53B

policy.pkl 34B

iteration.pkl 6B

iteration.pkl 5B

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_model3policyodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_modelpolicyodel.pth 363KB

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_model3regretmodel.pth 363KB

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_modelpolicyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model5tempregretmodel.pth 363KB

DeepCFR+_model5temppolicyodel.pth 363KB

temppolicyodel.pth 363KB

DeepCFR+_model5regretmodel.pth 363KB

DeepCFR+_model5policyodel.pth 363KB

tempregretmodel.pth 363KB

DeepCFR+_model4temp2policyodel.pth 362KB

DeepCFR+_model4temp2regretmodel.pth 362KB

DeepCFR+_model4regretmodel.pth 362KB

DeepCFR+_model4policyodel.pth 362KB

DeepCFR+_model4tempregretmodel.pth 362KB

DeepCFR+_model4temppolicyodel.pth 362KB

DeepCFR+_model3temppolicyodel.pth 361KB

DeepCFR+_model3tempregretmodel.pth 361KB

DeepCFR+_model3regretmodel.pth 361KB

DeepCFR+_model3policyodel.pth 361KB

DeepCFR+_model5regretmodel.pth 359KB

DeepCFR+_model5policyodel.pth 359KB

DeepCFR+_model4temp7policyodel.pth 337KB

DeepCFR+_model4temp7regretmodel0.pth 337KB

DeepCFR+_model4temp7regretmodel1.pth 337KB

DeepCFR+_model4temp6policyodel.pth 128KB

DeepCFR+_model4temp6regretmodel.pth 128KB

DeepCFR+_model4temp4policyodel.pth 128KB

DeepCFR+_model4temp5policyodel.pth 128KB

DeepCFR+_model4temp5regretmodel.pth 128KB

DeepCFR+_model4temp4regretmodel.pth 128KB

DeepCFR+_model4temp7regretmodel.pth 128KB

DeepCFR+_model4temp3regretmodel.pth 128KB

DeepCFR+_model4temp3policyodel.pth 128KB

DeepCFR+_model3temppolicyodel.pth 126KB

DeepCFR+_model3tempregretmodel.pth 126KB

DeepCFR+_model3regretmodel.pth 126KB

DeepCFR+_model3policyodel.pth 126KB

DeepCFRagent3 copy 5.py 32KB

DeepCFRagent3 copy 4.py 32KB

DeepCFRagent3.py 32KB

DeepCFRagent5.py 31KB

DeepCFRagent3.py 31KB

DeepCFRagent3 copy 3.py 31KB

DeepCFRagent.py 31KB

DeepCFRagent3 copy 4.py 30KB

DeepCFRagent3 copy 3.py 30KB

DeepCFRagent3.py 30KB

DeepCFRagent3 copy 2.py 30KB

共 165 条

本论文题目为基于深度强化学习的德州扑克AI算法优化结果储存在result.xlsx，以每个图的数据进行呈现，包括中期报告和论文的数据本论文三个实验环境为： Limit leduc holdem poker(有限注德扑简化版): 文件夹为limit_leduc，写代码的时候为了简化，使用的环境命名为NolimitLeducholdemEnv，但实际上是limitLeducholdemEnv Nolimit leduc holdem poker(无限注德扑简化版): 文件夹为nolimit_leduc_holdem3，使用环境为NolimitLeducholdemEnv（chips=10） Limit holdem poker(有限注德扑) 文件夹为limitholdem，使用环境为LimitholdemEnv 本论文所设计的agent位于"/实验环境/agents/DeepCFRagent3.py"，是由DeepCFRagent改进来的agent，在实验中，我们与CFR，CFR+，MCCFR，DeepCFR进行对比，Limit leduc holdem poker和Nolimit leduc holdem poker使用exploitability进行评估（exploitability衡量算法与纳什均衡的距离），Limit holdem poker环境过大，使用与RandomAgent作战的reward作为评估指标本论文工作量： 1.本论文所使用的agent，800+行 2.本论文复现出的CFR，CFR+，MCCFR，DeepCFR算法，CFR，CFR+，MCCFR，每个算法400行左右，DeepCFR为600行，以上算法都未开源 3.本文使用的环境，我们使用RLcard作为我们的底层，每个环境大约为500行左右 4.对算法的效果进行测试，主要为含有test的py文件，此部分大约为500行左右本文为online-learning，无数据集

评论收藏

内容反馈

版权申诉