没有合适的资源?快使用搜索试试~ 我知道了~
deepstack算法详解
5星 · 超过95%的资源 需积分: 50 183 下载量 195 浏览量
2017-08-10
17:10:22
上传
评论 9
收藏 1.08MB PPTX 举报
温馨提示
试读
19页
研究了一段时间的德州扑克,主要针对deepstack的算法进行研究。包括其中的CFR 算法
资源推荐
资源详情
资源评论
德州扑克 Deep Stack 算
法
一、 CFR 算法
CFR ( Counterfactual Regret Minimizaon )算法,是一个类似强化学习的算法,但是更高效。让 AI
之间对战德州扑克,采用随机的策略,然后每局过后看看在什么地方后悔了,然后尝试不同的战略,
再在决策点上复盘。
累积经验、评判自己的选择,但这里正确的后悔点很重要。德州扑克具有很强的随机性,所以容易
陷入错误的学习方式。
CFR 算法在德州扑克上应用的主要问题是德州扑克的空间太大了,复杂度是 10^160 次方。而在
deepstack 中采用的方案是 CFR+“ 直觉”。也就是类似于 Alphago 的估值函数,并不搜索到最终局,
在树发展到一定深度就进行截断评估。
一、 CFR 算法
遗憾值( regret ):在一局石头剪刀布中,对手出了布,玩家出了石头,结果是玩家输
了 -1 。这时的遗憾值为 { 石头: 0 ,布: 1 ,剪刀: 2} 。也就意味着如果执行其他动作
会比执行当前的动作有多少优势。
遗憾值匹配( regret matching ):遗憾匹配,通过计算出的遗憾值更新策略。最常用的是将
遗憾动作值归一化为生成概率。这种方法可以通过自我对局来最小化预期的 regret 。
对于上面剪刀石头布的例子,根据上述遗憾值进行 regret matching 后得到的策略是:
{ 石头: 0 ,布: 1/3 ,剪刀: 2/3}
一、 CFR 算法
整体流程:
1 、对每个玩家,初始化所有的累积 regret=0
2 、迭代一定次数:
-- 利用累积的 regret 计算一个 regret matching 策略组合 σ
-- 将上述生成的策略组合 σ 添加到 sum{σ1 , σ2 , σ3...} 中去
-- 计算在当前的策略组合 σ 下玩家的 regrets
-- 将玩家的 regrets 添加进总的累积 regrets
3 、返回平均策略组合,比如( σ1+σ2+σ3+... ) /n
策略组合 σ 是指在每个可能的情况下,执行各可行动作的概率。
regret matching :根据目前的累积 regret 生成的策略。
剩余18页未读,继续阅读
李非白
- 粉丝: 2
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Pytorch复现Point-Transformer,用于ShapeNet数据集点云分割
- 【医学影像分析】2D超声图像的分割检测(Ultrasound Nerve Segmentation - Kaggle数据集)
- 嘎嘎香的五款神仙谷歌插件
- .arch书源导入教程.mp4
- 贪心算法介绍及代码示例讲解
- CR13SP35MSI64 Crystal 水晶报表运行组件最后版本64位
- 图像分类数据集:玉米叶是否感染分类数据集(2分类,包含训练集、验证集)
- 小U商城.zip
- 高光谱图像计算机视觉分类图像预处理工具集,包含去除图片无关背景,数据增强,生成标签文件等功能
- (顶刊复现)基于配电网韧性提升的应急移动电源预配置和动态调度(下)-MPS动态调度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
前往页