本论文题目为基于深度强化学习的德州扑克AI算法优化
结果储存在result.xlsx,以每个图的数据进行呈现,包括中期报告和论文的数据
本论文三个实验环境为:
Limit leduc holdem poker(有限注德扑简化版):
文件夹为limit_leduc,写代码的时候为了简化,使用的环境命名为NolimitLeducholdemEnv,但实际上是limitLeducholdemEnv
Nolimit leduc holdem poker(无限注德扑简化版):
文件夹为nolimit_leduc_holdem3,使用环境为NolimitLeducholdemEnv(chips=10)
Limit holdem poker(有限注德扑)
文件夹为limitholdem,使用环境为LimitholdemEnv
本论文所设计的agent位于"/实验环境/agents/DeepCFRagent3.py",是由DeepCFRagent改进来的agent,在实验中,我们与CFR,CFR+,MCCFR,DeepCFR进行对比,Limit leduc holdem poker和Nolimit leduc holdem poker使用exploitability进行评估(exploitability衡量算法与纳什均衡的距离),Limit holdem poker环境过大,使用与RandomAgent作战的reward作为评估指标
本论文工作量:
1.本论文所使用的agent,800+行
2.本论文复现出的CFR,CFR+,MCCFR,DeepCFR算法,CFR,CFR+,MCCFR,每个算法400行左右,DeepCFR为600行,以上算法都未开源
3.本文使用的环境,我们使用RLcard作为我们的底层,每个环境大约为500行左右
4.对算法的效果进行测试,主要为含有test的py文件,此部分大约为500行左右
本文为online-learning,无数据集
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
本论文题目为基于深度强化学习的德州扑克AI算法优化 结果储存在result.xlsx,以每个图的数据进行呈现,包括中期报告和论文的数据 本论文三个实验环境为: Limit leduc holdem poker(有限注德扑简化版): 文件夹为limit_leduc,写代码的时候为了简化,使用的环境命名为NolimitLeducholdemEnv,但实际上是limitLeducholdemEnv Nolimit leduc holdem poker(无限注德扑简化版): 文件夹为nolimit_leduc_holdem3,使用环境为NolimitLeducholdemEnv(chips=10) Limit holdem poker(有限注德扑) 文件夹为limitholdem,使用环境为LimitholdemEnv 本论文所设计的agent位于"/实验环境/agents/DeepCFRagent3.py",是由DeepCFRagent改进来的agent,在实验中,我们与CFR,CFR+,MCCFR,DeepCFR进行对比,Limit leduc holdem poker和Noli
资源推荐
资源详情
资源评论
收起资源包目录
基于python深度强化学习的德州扑克AI算法优化源码+项目说明+模型.zip (164个子文件)
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
performance.csv 26B
launch.json 477B
settings.json 243B
card2index.json 56B
card2index.json 56B
README.md 2KB
regrets.pkl 3.22MB
average_policy.pkl 3.22MB
average_policy.pkl 1.35MB
regrets.pkl 1.35MB
average_policy.pkl 47KB
regrets.pkl 47KB
average_policy.pkl 18KB
regrets.pkl 18KB
policy.pkl 53B
policy.pkl 53B
policy.pkl 34B
policy.pkl 34B
iteration.pkl 6B
iteration.pkl 6B
iteration.pkl 5B
iteration.pkl 5B
DeepCFR+_model2policyodel.pth 363KB
DeepCFR+_model3policyodel.pth 363KB
DeepCFR+_model2regretmodel.pth 363KB
DeepCFR+_modelpolicyodel.pth 363KB
DeepCFR+_modelpolicyodel.pth 363KB
DeepCFR+_model2policyodel.pth 363KB
DeepCFR+_modelregretmodel.pth 363KB
DeepCFR+_model2regretmodel.pth 363KB
DeepCFR+_model2policyodel.pth 363KB
DeepCFR+_model3regretmodel.pth 363KB
DeepCFR+_modelregretmodel.pth 363KB
DeepCFR+_model2regretmodel.pth 363KB
DeepCFR+_modelpolicyodel.pth 363KB
DeepCFR+_modelregretmodel.pth 363KB
DeepCFR+_model5tempregretmodel.pth 363KB
DeepCFR+_model5temppolicyodel.pth 363KB
temppolicyodel.pth 363KB
DeepCFR+_model5regretmodel.pth 363KB
DeepCFR+_model5policyodel.pth 363KB
tempregretmodel.pth 363KB
DeepCFR+_model4temp2policyodel.pth 362KB
DeepCFR+_model4temp2regretmodel.pth 362KB
DeepCFR+_model4regretmodel.pth 362KB
DeepCFR+_model4policyodel.pth 362KB
DeepCFR+_model4tempregretmodel.pth 362KB
DeepCFR+_model4temppolicyodel.pth 362KB
DeepCFR+_model3temppolicyodel.pth 361KB
DeepCFR+_model3tempregretmodel.pth 361KB
DeepCFR+_model3regretmodel.pth 361KB
DeepCFR+_model3policyodel.pth 361KB
DeepCFR+_model5regretmodel.pth 359KB
DeepCFR+_model5policyodel.pth 359KB
DeepCFR+_model4temp7policyodel.pth 337KB
DeepCFR+_model4temp7regretmodel0.pth 337KB
DeepCFR+_model4temp7regretmodel1.pth 337KB
DeepCFR+_model4temp6policyodel.pth 128KB
DeepCFR+_model4temp6regretmodel.pth 128KB
DeepCFR+_model4temp4policyodel.pth 128KB
DeepCFR+_model4temp5policyodel.pth 128KB
DeepCFR+_model4temp5regretmodel.pth 128KB
DeepCFR+_model4temp4regretmodel.pth 128KB
DeepCFR+_model4temp7regretmodel.pth 128KB
DeepCFR+_model4temp3regretmodel.pth 128KB
DeepCFR+_model4temp3policyodel.pth 128KB
DeepCFR+_model3temppolicyodel.pth 126KB
DeepCFR+_model3tempregretmodel.pth 126KB
DeepCFR+_model3regretmodel.pth 126KB
DeepCFR+_model3policyodel.pth 126KB
DeepCFRagent3 copy 5.py 33KB
DeepCFRagent3 copy 4.py 33KB
DeepCFRagent3.py 32KB
DeepCFRagent5.py 32KB
DeepCFRagent3.py 32KB
DeepCFRagent3 copy 3.py 32KB
DeepCFRagent.py 31KB
DeepCFRagent.py 31KB
DeepCFRagent3 copy 4.py 31KB
DeepCFRagent3 copy 3.py 31KB
DeepCFRagent3.py 31KB
DeepCFRagent3 copy 2.py 31KB
DeepCFRagent3 copy.py 31KB
共 164 条
- 1
- 2
资源评论
FL1768317420
- 粉丝: 4080
- 资源: 4617
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Python 程序语言设计模式思路-创建型模式:原型模式:通过复制现有对象来创建新对象,面向对象编程
- 卸载软件geek卸载软件geek
- Python 程序语言设计模式思路-创建型模式:单例模式,确保一个类的唯一实例(装饰器)面向对象编程、继承
- skywalking-plugins.jar skywalking-alarm.jar
- 独栋别墅图纸D020-两层-10.00&11.00米- 施工图.dwg
- Python 程序语言设计模式思路-创建型模式:工厂模式,创建对象的统一接口,封装对象的创建逻辑
- python自学教程-05-json数据格式的介绍.ev4.rar
- python自学教程-04-自定义JavaScript.ev4.rar
- 《淘宝后台系统...》
- skywalking-plugins.jar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功