没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
35页
我们提出了一种新的强化学习算法,\emph{Elimination-Based Half-Q-Learning},用于 \emph{episodic} 随机库存控制问题,其中需求分布和成本参数根据周期性模式而变化,并且产品死亡或定期打捞。 正如在线学习文献中常见的那样,我们应用标准性能衡量标准 \emph{regret},定义为可行在线算法在 $T$ 时间段内实现的预期累积成本与预期累积成本之间的差值。具有完全了解需求分布的最优策略的相同时间范围。 我们分析了具有提前期和订单容量的单品销售损失模型和单品积压模型,并获得了两者的 $\tilde{\mathcal{O}}(\sqrt{T})$ 遗憾。 我们算法的一个简单变体 \emph{Full-Q-Learning} 为具有固定联合订购成本、提前期和订单容量的多产品积压模型实现了相同的遗憾界限。 我们证明了这些问题的 $\mathcal{O}(\sqrt{T})$ 后悔下界,体现了我们算法的最优性。 我们的算法通过利用在许多运筹学问题中普遍存在的 \emph{one-side-feedback} 和 \emph{full-feedback} 设置,消除了现有 Q-learning 算法对可能巨大的状态-动作空间的遗憾依赖. 最后,数值实验证实了我们算法的有前途的性能。
资源推荐
资源评论
资源评论
weixin_38559203
- 粉丝: 5
- 资源: 938
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功