没有合适的资源?快使用搜索试试~ 我知道了~
引入TargetNet后,再一段时间里目标Q值使保持不变的,一定程度降低了当前Q值和目标Q值的相关性,提高了算法稳定性。流程图
资源详情
资源评论
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/86379018/bg1.jpg)
一.DRL
原因:
在普通的维度不高,且离散的时候,Q-Learning 算法使用 Q-Table 矩阵存储状态
当维度变高,状态和动作空间高维连续的时候使用,Q-Table 存储不了
解决办法:函数拟合。
Q(s,a;θ)≈Q′(s,a)
而深度神经网络可以自动提取复杂特征,因此,面对高维且连续的状态使用深度
神经网络最合适不过了。
DRL 是将深度学习(DL)与强化学习(RL)结合,直接从高维原始数据学习控制策略。
而 DQN 是 DRL 的其中一种算法,它要做的就是将卷积神经网络(CNN)和 Q-Learning
结合起来,CNN 的输入是原始图像数据(作为状态 State),输出则是每个动作 Action
对应的价值评估 Value Function(Q 值)。
二.DL 与 RL 的结合
Q-Learning:
Q∗(s,a)=Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a))
DQN 的 Loss Function 为:
L(θ)=E[(TargetQ−Q(s,a;θ))2]
其中 θ 是网络参数,目标为
TargetQ=r+γmaxa′Q(s′,a′;θ)
三.解决的问题
(1) 经验池:经验池的功能主要是解决相关性及非静态分布问题。具体做法是把每
个时间步agent与环境交互得到的转移样本 (st,at,rt,st+1) 储存到回放记忆单元,
要训练时就随机拿出一些(minibatch)来训练。(其实就是将游戏的过程打成
碎片存储,训练时随机抽取就避免了相关性问题)
(2) 目标网络:在 Nature 2015 版本的 DQN 中提出了这个改进,使用另一个网络
(这里称为 TargetNet)产生 Target Q 值。具体地,Q(s,a;θi) 表示当前网络
MainNet 的输出,用来评估当前状态动作对的值函数;Q(s,a;θ−i) 表示 TargetNet
的输出,代入上面求 TargetQ 值的公式中得到目标 Q 值。根据上面的 Loss
Function 更新 MainNet 的参数,每经过 N 轮迭代,将 MainNet 的参数复制给
TargetNet。
引入 TargetNet 后,再一段时间里目标 Q 值使保持不变的,一定程度降低了当
前 Q 值和目标 Q 值的相关性,提高了算法稳定性。
四.流程图
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![avatar](https://profile-avatar.csdnimg.cn/8e632cfd852743a78d9af8d7a466d4ec_weixin_35828992.jpg!1)
甜甜不加糖
- 粉丝: 30
- 资源: 323
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)
评论0