情景随机库存控制模型的可证明有效的强化学习-研究论文

inventory

control

periodic

需积分: 9 0 下载量 88 浏览量 2021-06-09 21:19:49 上传评论收藏 533KB PDF 举报

温馨提示

试读

35页

我们提出了一种新的强化学习算法，\emph{Elimination-Based Half-Q-Learning}，用于 \emph{episodic} 随机库存控制问题，其中需求分布和成本参数根据周期性模式而变化，并且产品死亡或定期打捞。正如在线学习文献中常见的那样，我们应用标准性能衡量标准 \emph{regret}，定义为可行在线算法在 $T$ 时间段内实现的预期累积成本与预期累积成本之间的差值。具有完全了解需求分布的最优策略的相同时间范围。我们分析了具有提前期和订单容量的单品销售损失模型和单品积压模型，并获得了两者的 $\tilde{\mathcal{O}}(\sqrt{T})$ 遗憾。我们算法的一个简单变体 \emph{Full-Q-Learning} 为具有固定联合订购成本、提前期和订单容量的多产品积压模型实现了相同的遗憾界限。我们证明了这些问题的 $\mathcal{O}(\sqrt{T})$ 后悔下界，体现了我们算法的最优性。我们的算法通过利用在许多运筹学问题中普遍存在的 \emph{one-side-feedback} 和 \emph{full-feedback} 设置，消除了现有 Q-learning 算法对可能巨大的状态-动作空间的遗憾依赖. 最后，数值实验证实了我们算法的有前途的性能。

资源推荐

资源评论