在复杂楼层背景下,一种基于深度强化学习
的目的楼层预约调度算法的多智能体电梯
群控系统的研究
第一章 绪论
1.1 研究目的及意义
随着经济和科技的飞速发展,电梯工业也取得了很大的进步,先进的派体策略和控制方
式都被应用到电梯群控系统中。当前电梯客流信息管理模式绝大多数还是采用传统的派梯方
式,即二次输入模式。乘客在候梯大厅外部按键选择上行或者下行方向,进入电梯厢后再选
择目的楼层。这种方式,在进入电梯厢之前,乘客的目的楼层不确定,目的楼层的滞后性和
不确定性,对乘客的候梯和候梯时间的影响误差较大,导致派梯的效果和性能欠佳。
伴随着传统电梯群控系统结构的改进,出现了一些新型的电梯控制系统,如双层轿厢电
梯的群控系统、多轿厢电梯的控制系统和目的楼层预约呼梯群控系统。目的楼层预约呼梯群
控系统将上行/下行按钮和选层按键合二为一,将候梯大厅的上下行按钮省去,取而代之的
是可以选择具体楼层的全数字键盘。乘客只需在数字键盘中选择要前往的目的楼层,电梯系
统在接收到乘客的请求之后,通过系统的派梯调度算法计算出最优的派梯策略,在候梯大厅
的数字键盘显示系统给出的派梯信号,通知乘客到指定电梯处等待,引导乘客合理乘梯。
目前,国内外对目的楼层预约调度算法的研究还处于起步阶段。本文提出了一种基于深
度强化学习的目的楼层预约调度算法,为让电梯调度算法在调度时间最短和算法适应性方面
具备更好表现,在目前主流的电梯调度算法 基础之上,提出对调度环境和调度目标 2 个方
面进行统一建模的基于强化学习 DQN 的电梯智能调度算法。让调度电梯在不断地和环境交互
学习过程中逐渐学习得到最优电梯调度策略,与基于具体环境建模的相关电梯调度算法进行
对比实验,基于 DQN 的调度算法具有建模简单规范、适应性强和控制目标多样,效率更高的
优势,对比 DQN 算法与部分强化学习算法 在电梯调度中的优劣,实验结果表明,DQN 算法具
备较好的调度性能。
关键词:智能调度;电梯调度算法;强化学习;神经网络;深度强化学习;DQN