%I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?
clear all;
%风速初始化
Windyworld.windx=zeros(7,10);
Windyworld.windy=zeros(7,10);
Windyworld.windy(:,4:9)=Windyworld.windy(:,4:9)+1;
%%Windyworld.windy(:,7:8)=Windyworld.windy(:,7:8)+1;
targetxy=[6,8]; %!!注意:第一个坐标为y坐标,第二个坐标为x坐标
alpha=0.5;
gamma=0.9;
lambda=0.6;
Tloop=6000; %总学习循环次数
mark=zeros(1,Tloop); %记录是否成功
%迭代为二重时间循环
Q_func=zeros(7,10,4); %!!三维值函数矩阵:(z=1:+x)(z=2:-x)(z=3:+y)(z=4:-y)
Q_func(:,:,1)=0.2; %size(B),ndims(B)
Q_func(targetxy(1),targetxy(2),:)=0; %目标值的所有Q函数始终为0
for Ts=1:Tloop %Ts=study time
%单次运动初始化
rolexy=[4,1];
E_sa=zeros(7,10,4);
result(Ts).Q_func=zeros(7,10,4);
result(Ts).trace=zeros(40,3);
result(Ts).trace(1,:)=([1,rolexy(1),rolexy(2)]);
for Tm=1:40
%按照策略获得到达下一步的动作
if Tm==1
act=tcegreedy(Ts,Q_func(rolexy(1),rolexy(2),:));
else
act=actnext;
end
nextxy=movement(act,rolexy,Windyworld);
%TD算法进行策略值迭代
%计算reward
if nextxy(1)==targetxy(1)&&nextxy(2)==targetxy(2) %到达目标
reward=5;
else if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界
reward=-1;
else
reward=0;
end %reward不考虑超出步数的问题
end
%LambdaSarsa方式进行Q函数更新,确定下一步动作的同时更新Q函数
%在nextxy状态下选择动作并计算Qnext
if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界
Qnext=0;
else
actnext=tcegreedy(Ts,Q_func(nextxy(1),nextxy(2),:));
Qnext=Q_func(nextxy(1),nextxy(2),actnext);
end
%计算delta,更新E_sa
delta=reward+gamma*Qnext-Q_func(rolexy(1),rolexy(2),act);
E_sa(rolexy(1),rolexy(2),act)=E_sa(rolexy(1),rolexy(2),act)+1;
%全局更新Q函数
Q_func=Q_func+alpha*delta*E_sa;
E_sa=gamma*lambda*E_sa;
%更新坐标
rolexy=nextxy;
result(Ts).trace(Tm+1,:)=([Tm+1,rolexy(1),rolexy(2)]);
%判断是否跳出本episode
if rolexy(1)==targetxy(1)&&rolexy(2)==targetxy(2)
mark(Ts)=1;
break;
else if rolexy(1)<1||rolexy(1)>7||rolexy(2)<1||rolexy(2)>10
break;
end
end
end
result(Ts).Q_func=Q_func;
end
Avegain=zeros(1,Tloop);
for i=1:Tloop
Avegain(i)=sum(mark(1:i))/i;
end
plot(1:Tloop,Avegain);
MATLAB强化学习_QLearning网格迷宫问题_程序包
版权申诉
5星 · 超过95%的资源 6 浏览量
2021-01-28
22:05:30
上传
评论 9
收藏 6KB RAR 举报
忘了面孔的Batou
- 粉丝: 696
- 资源: 15
最新资源
- Screenshot_20240427_031602.jpg
- 网页PDF_2024年04月26日 23-46-14_QQ浏览器网页保存_QQ浏览器转格式(6).docx
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
- 课设-内部排序算法比较 包括冒泡排序、直接插入排序、简单选择排序、快速排序、希尔排序、归并排序和堆排序.zip
- Python排序算法.zip
- C语言实现直接插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序、归并排序、计数排序,并带图详解.zip
- 常用工具集参考用于图像等数据处理
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
- 1
- 2
- 3
- 4
- 5
- 6
前往页