基于Transformer模型+强化学习训练的立直麻将agent

共49个文件

py：19个

cc：9个

hh：6个

版权申诉

人工智能

5星 · 超过95%的资源 119 浏览量 2024-03-15 10:51:03 上传评论收藏 771KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

satori-master.zip （49个子文件）

satori-master

weights

plot.py 821B

log.txt 6KB

LICENSE 9KB

SL.py 5KB

__init__.py 0B

view_dist.py 627B

SL_ddp.py 8KB

dataset

unzip_ds.py 560B

view.py 739B

zip.sh 46B

game_loader.py 14KB

spider.py 3KB

README.md 1KB

tests

牌效.txt 139B

何切300问.txt 5KB

run_test.py 8KB

Misc

__init__.py 19B

libc

loop.hh 70B

rawdata.cc 4KB

Makefile 144B

utils.cc 5KB

thread.hh 2KB

io.cc 1KB

loop.cc 2KB

evaluate.cc 22KB

types.hh 7KB

rawdata.hh 2KB

make_lib.sh 37B

thread.cc 4KB

evaluate.hh 8KB

utils.hh 3KB

search.cc 6KB

main.cc 133B

types.cc 275B

model.py 12KB

misc.py 12KB

engine.py 3KB

requirements.txt 30B

.gitignore 2KB

images

example.png 253KB

val_loss.png 224KB

val_acc.png 215KB

label_dist.png 48KB

__init__.py 0B

ppo_discrete_main.py 6KB

replaybuffer.py 2KB

ppo_discrete.py 6KB

selfplay_worker.py 16KB

README.md 2KB

## Reinforcement Learning(RL) 使用PPO算法，self-play，收集trajectory进行梯度更新，进一步优化模型运行`RL/ppo_discrete_main.py` #### 策略梯度 RL部分的目标为最大化所有状态（手牌+场况）的平均价值： $$ \underset{\theta}{maximize}\quad J(\theta)=\underset{s\sim \eta}{E}\left[v_{\pi_\theta}(s)\right] $$ 其梯度： $$ \nabla_\theta J(\theta) =\underset{s\sim \eta,\ a\sim\pi_\theta}{E}\left[ \nabla_\theta \log\pi_\theta(a|s) q_\pi(s,a)\right] $$ 定义优势函数： $$ A_\pi(s_t,a_t)=\underset{s_{t+1}\sim \Pr(s_{t+1}|s_t,a_t)}{E}\left[ r(s_t)+\gamma v_\pi(s_{t+1})-v_\pi(s_{t}) \right] $$ 使用PPO算法，最大化代理目标(surrogate objective, 记为$\mathcal{L}(\theta)$)：(取$\epsilon=0.2$) $$ \begin{aligned} \underset{\theta}{maximize}&\quad \mathcal{L}(\theta)=\underset{(s, a)\sim \tau_{old}}{E} \left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)}A_{\pi_{\theta_{old}}}(s,a)\right]\\ s.t.&\underset{(s, a)\sim \tau_{old}}{E} \left[\left\lvert\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} - 1\right\rvert\right] \le \epsilon \end{aligned} $$ 上式可写为： $$ \mathcal{L}^{\text{CLIP}}(\theta)= \underset{(s, a)\sim \tau_{old}}{E} \left[\min\left(\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)}A, \ \text{clip}(\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)}, 1-\epsilon, 1+\epsilon)A\right)\right] $$ 求梯度并加上熵正则项（实际使用时需加上clip操作）： $$ \nabla_\theta \mathcal{L}(\theta) =\underset{(s, a)\sim \tau_{old}}{E}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} \nabla_\theta \log\pi_\theta(a|s) A_{\pi_{\theta_{old}}}(s,a)\right] +\alpha\nabla_\theta H(\pi_\theta) $$ 其中优势函数使用GAE估计一条trajectory定义为一整个round的`agent_pos`做出的所有discard决策，reward仅在round结束后得到，即最后一个action的reward是round的收支点数/100（如放铳-5200点，此round的reward就是-52），其余的所有action的reward都是0，即$r_T=-52, r_t=0,t<T$ #### 更新算法 1. 与环境交互获得一条trajectory：$(s_t, a_t, r_{t+1}, s_{t+1})|_{t=0}^{T-1}$ 2. 将此时的策略记为$\pi_{\theta_{old}}$，重复步骤3若干次 3. 最新的策略记为$\pi_\theta$，根据$\pi_\theta$计算熵、梯度，用平均梯度使用梯度上升法更新$\pi_\theta$ > 经过400局self-play后，与《何切三百问》前165题上能取得60%的一致率

评论收藏

内容反馈

版权申诉