本论文题目为基于深度强化学习的德州扑克AI算法优化.zip

共165个文件

py：58个

pth：48个

txt：18个

版权申诉

134 浏览量 2024-05-09 10:15:10 上传评论收藏 13.9MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

本论文题目为基于深度强化学习的德州扑克AI算法优化.zip （165个子文件）

performance.csv 25B

.gitignore 2KB

launch.json 477B

settings.json 243B

card2index.json 55B

README.md 2KB

regrets.pkl 3.22MB

average_policy.pkl 3.22MB

regrets.pkl 1.35MB

average_policy.pkl 1.35MB

average_policy.pkl 47KB

regrets.pkl 47KB

regrets.pkl 18KB

average_policy.pkl 18KB

policy.pkl 53B

policy.pkl 34B

iteration.pkl 6B

iteration.pkl 5B

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_model3policyodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_modelpolicyodel.pth 363KB

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_model3regretmodel.pth 363KB

DeepCFR+_model2policyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model2regretmodel.pth 363KB

DeepCFR+_modelpolicyodel.pth 363KB

DeepCFR+_modelregretmodel.pth 363KB

DeepCFR+_model5tempregretmodel.pth 363KB

DeepCFR+_model5temppolicyodel.pth 363KB

temppolicyodel.pth 363KB

DeepCFR+_model5regretmodel.pth 363KB

DeepCFR+_model5policyodel.pth 363KB

tempregretmodel.pth 363KB

DeepCFR+_model4temp2policyodel.pth 362KB

DeepCFR+_model4temp2regretmodel.pth 362KB

DeepCFR+_model4regretmodel.pth 362KB

DeepCFR+_model4policyodel.pth 362KB

DeepCFR+_model4tempregretmodel.pth 362KB

DeepCFR+_model4temppolicyodel.pth 362KB

DeepCFR+_model3temppolicyodel.pth 361KB

DeepCFR+_model3tempregretmodel.pth 361KB

DeepCFR+_model3regretmodel.pth 361KB

DeepCFR+_model3policyodel.pth 361KB

DeepCFR+_model5regretmodel.pth 359KB

DeepCFR+_model5policyodel.pth 359KB

DeepCFR+_model4temp7policyodel.pth 337KB

DeepCFR+_model4temp7regretmodel0.pth 337KB

DeepCFR+_model4temp7regretmodel1.pth 337KB

DeepCFR+_model4temp6policyodel.pth 128KB

DeepCFR+_model4temp6regretmodel.pth 128KB

DeepCFR+_model4temp4policyodel.pth 128KB

DeepCFR+_model4temp5policyodel.pth 128KB

DeepCFR+_model4temp5regretmodel.pth 128KB

DeepCFR+_model4temp4regretmodel.pth 128KB

DeepCFR+_model4temp7regretmodel.pth 128KB

DeepCFR+_model4temp3regretmodel.pth 128KB

DeepCFR+_model4temp3policyodel.pth 128KB

DeepCFR+_model3temppolicyodel.pth 126KB

DeepCFR+_model3tempregretmodel.pth 126KB

DeepCFR+_model3regretmodel.pth 126KB

DeepCFR+_model3policyodel.pth 126KB

DeepCFRagent3 copy 5.py 32KB

DeepCFRagent3 copy 4.py 32KB

DeepCFRagent3.py 32KB

DeepCFRagent5.py 31KB

DeepCFRagent3.py 31KB

DeepCFRagent3 copy 3.py 31KB

DeepCFRagent.py 31KB

DeepCFRagent3 copy 4.py 30KB

DeepCFRagent3.py 30KB

DeepCFRagent3 copy 3.py 30KB

DeepCFRagent3 copy 2.py 30KB

共 165 条

本论文题目为基于深度强化学习的德州扑克AI算法优化结果储存在result.xlsx，以每个图的数据进行呈现，包括中期报告和论文的数据本论文三个实验环境为： Limit leduc holdem poker(有限注德扑简化版): 文件夹为limit_leduc，写代码的时候为了简化，使用的环境命名为NolimitLeducholdemEnv，但实际上是limitLeducholdemEnv Nolimit leduc holdem poker(无限注德扑简化版): 文件夹为nolimit_leduc_holdem3，使用环境为NolimitLeducholdemEnv（chips=10） Limit holdem poker(有限注德扑) 文件夹为limitholdem，使用环境为LimitholdemEnv 本论文所设计的agent位于"/实验环境/agents/DeepCFRagent3.py"，是由DeepCFRagent改进来的agent，在实验中，我们与CFR，CFR+，MCCFR，DeepCFR进行对比，Limit leduc holdem poker和Nolimit leduc holdem poker使用exploitability进行评估（exploitability衡量算法与纳什均衡的距离），Limit holdem poker环境过大，使用与RandomAgent作战的reward作为评估指标本论文工作量： 1.本论文所使用的agent，800+行 2.本论文复现出的CFR，CFR+，MCCFR，DeepCFR算法，CFR，CFR+，MCCFR，每个算法400行左右，DeepCFR为600行，以上算法都未开源 3.本文使用的环境，我们使用RLcard作为我们的底层，每个环境大约为500行左右 4.对算法的效果进行测试，主要为含有test的py文件，此部分大约为500行左右本文为online-learning，无数据集

评论收藏

内容反馈

版权申诉