MATLAB强化学习_多臂赌机问题_程序包_强化学习程序资源-CSDN文库

共9个文件

m：9个

版权申诉

MATLAB

机器学习

强化学习

多臂赌机问题

5星 · 超过95%的资源 100 浏览量 2021-01-27 21:36:07 上传评论 3 收藏 4KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

多臂赌机问题_MatLab程序包.rar （9个子文件）

多臂赌机问题_egreedy策略

findmax.m 292B

Slotmachine5.m 279B

e_greedy.m 1KB

多臂赌机问题_softmax策略

findmax.m 292B

softmax.m 1KB

Slotmachine5.m 279B

多臂赌机问题_时变egreedy策略

findmax.m 292B

tce_greedy.m 1KB

Slotmachine5.m 279B

clear all; tau=[0.8,0.4,0.2,0.05,0.01]; %tau为温度 m=5; T=10000; %决策机内存初始化 Avegain=zeros(m,5); Testtime=zeros(m,5); Ppick=zeros(m,5); for i=1:m sum1=sum(exp(Avegain(i,:)/tau(i))); for j=1:5 Ppick(i,j)=exp(Avegain(i,j)/tau(i))/sum1; end end Reward=zeros(m,T); for k=1:m for i=1:T P0=rand(1); for j=1:5 %摇臂数 if P0<sum(Ppick(k,k:j)) num=j; break; end end r=Slotmachine5(num); if i==1 %更新累计奖赏 Reward(k,i)=r; else Reward(k,i)=(Reward(k,i-1)*(i-1)+r)/i; end Avegain(k,num)=(Avegain(k,num)*Testtime(k,num)+r)/(Testtime(k,num)+1); %更新所选臂的平均奖赏 Testtime(k,num)=Testtime(k,num)+1; %更新所选臂的实验次数 %更新选择频率 sum1=sum(exp(Avegain(k,:)/tau(k))); for j=1:5 Ppick(k,j)=exp(Avegain(k,j)/tau(k))/sum1; end end end result.Testtime=Testtime; result.Avegain=Avegain; result.Reward=Reward; plot(1:T,Reward); xlabel('测试次数'); ylabel('平均累计奖赏'); legend('τ=0.8','τ=0.4','τ=0.2','τ=0.05','τ=0.01'); %legend('τ=0.2','τ=0.1','τ=0.05','τ=0.02','τ=0.005');

评论收藏

内容反馈

版权申诉