在实际工程应用中,有一类优化问题需要从集合的所有组合中找出一个最
优 方 案 或 编 排 , 这 类 离 散 空 间 中 的 优 化 问 题 称 为 组 合 最 优 化 问 题 ( com-
binatorial optimization problem,COP )
[1]
。 组 合 最 优 化 ( combinatorial
optimization,CO)的求解方法广泛应用于交通运输、管理、电力、航天、通信
等领域
[1]
,其快速求解具有重要的理论意义和实用价值。例如,车辆的调度、金融
资产的配置、仓库货物存储和运输路线的设计等实际问题都属于 COP 问题,随
着这些优化问题实例规模的不断增大和实例中动态及随机因素的增加,传统方
法的求解将耗费巨大的时间,问题结构一旦发生变化,传统方法需要重新搜索求
解,计算成本也会随之提高,快速求解这些优化问题变得十分困难。
近年来随着深度学习(deep learning,DL)技术在计算机视觉
[2]
、自然 语
言处理
[3]
、语音识别
[4]
、推荐系统
[5]
等领域的广泛应用,特别是深度强化学习(deep
reinforcement learning,DRL)在 AlphaGo
[6]
、AlphaGo Zero
[7]
的成功应用,表明
在没有人类干预和指导的前提下,DL 和强化学习(reinforcement learning,RL)
的结合仍然能够取得很大的成功,甚至超越了人类经验的指导,具有快速求解、
泛化能力强、求 解精 度高 等优 势,为求解 COP 问题 提供 一个 全新 的思 路方 法。
鉴于此,近年来涌现出许多采用 RL 求解 COP 问题的新方法,即利用 RL 训练模
型的方法替代传统算法,让机器从算法中学习算法,从而快速且有效地解决实际
问题,适应现代科技的发展,进而满足人类生活需求。
业界相关的工作已经逐渐开展,如 2017 年 Hu 等人
[8]
采用 DRL 的方法求解
三维装箱问题;2018 年 Lin 等人
[9]
把 RL 应用在共享出行中的车辆管理和派单问
题上;2019 年 Mao 等人
[10]
将 RL 的方法应用在分布式集群任务调度中;2020 年
Mirhoseini 等人
[11]
又将 RL 应用到芯片布局设计中。这些研究都是通过 RL 的
方法解决实际生活中的 COP 问题,核心思路是:RL 序贯决策的功能与具有序
列决策性质的 COP 问题有天然的相似性
[12]
,RL 模型可以通过智能体与环境的
不断交互,自身逐步积累经验来获取问题的一个较优策略,在少量样本甚至无样
本的情况下,通过自学习的方式快速求解实际生活中的优化问题,从而得到优化
问题的解
[13]
,在求解过程中传统方法和新思路的流程如图 1 所示。
图 1
评论0
最新资源