【免费】强化学习A3C算法在电梯调度中的建模及应用_刘宇1

需积分: 0 80 浏览量更新于2022-08-04 收藏 1.06MB PDF 举报

：“强化学习A3C算法在电梯调度中的建模及应用_刘宇1” ：本文旨在改善电梯调度算法，提高其在能源消耗、乘客体验和算法适应性方面的性能。基于现有的主流电梯调度算法，文章提出了一个统一模型，即利用强化学习的A3C（Asynchronous Advantage Actor-Critic）算法来实现电梯智能调度。通过让调度电梯与环境持续互动学习，优化调度策略。：智能调度，电梯调度算法，电梯节能，强化学习，A3C 【内容详述】：强化学习是机器学习的一个领域，它通过与环境的交互来学习最优策略。A3C算法是一种强化学习方法，结合了Actor-Critic架构并引入了异步更新，能有效并行化训练过程，加快学习速度。在电梯调度问题中，A3C算法的应用主要体现在以下三个方面： 1. **调度环境建模**：将电梯系统的复杂环境抽象为状态空间和动作空间，每个状态代表电梯系统的当前配置，如电梯的位置、载客情况等。电梯的动作包括上行、下行、开门、关门等。 2. **电梯行为建模**：A3C算法通过神经网络模型模拟电梯的行为决策。电梯根据当前环境状态选择动作，并通过执行动作与环境交互，获得奖励或惩罚，从而调整策略。 3. **调度目标优化**：A3C算法的目标是最大化长期奖励，这在电梯调度中可以理解为最小化平均等待时间、降低能耗或提升乘客满意度。通过不断试错和学习，算法会逐渐找到最优调度策略。实验结果显示，A3C算法相比于传统的特定环境建模的电梯调度算法，有以下优势： - **建模简单规范**：A3C算法的模型结构清晰，能有效地处理复杂的环境变化。 - **适应性强**：由于异步更新，A3C能快速适应新环境或用户需求的变化。 - **控制目标多样**：A3C算法不仅能考虑单一指标，还能同时优化多个目标，如能源效率和乘客满意度。通过对A3C与其他强化学习算法的比较，如Q-learning或SARSA，A3C在调度性能上表现出更好的效果，证明了其在实际电梯调度问题中的应用潜力。总结来说，该研究利用强化学习的A3C算法对电梯调度进行建模和优化，以提升电梯系统的整体性能，降低能耗，提升用户体验，并具有良好的环境适应性和多目标控制能力。这一方法为解决现实世界中的电梯调度问题提供了新的思路。

２０２２

年

１

月

第

４３

卷

第

１

期

计算机工程与设计

ＣＯＭＰＵＴＥＲ

ＥＮＧＩＮＥＥＲＩＮＧ

ＡＮＤ

ＤＥＳＩＧＮ

Ｊａｎ．２０２２

Ｖｏｌ．４３



Ｎｏ．１

强化学习

Ａ３Ｃ

算法在电梯调度中的建模及应用

刘

宇

１

，

２

，

张

聪

２＋

，

李

涛

３

（

１．

武汉大学计算机学院

，

湖北武汉

４３００００

；

２．

武汉轻工大学数学与计算机学院

，

湖北武汉

４３００００

；

３．

国网湖北省电力有限公司荆州供电公司发展策划部

，

湖北荆州

４３４０００

）

摘

要

：

为让电梯调度算法在电梯电力能耗

、

用户乘梯体验和算法适应性方面具备更好表现

，

在目前主流的电梯调度算法

基础之上

，

提出对调度环境

、

电梯行为和调度目标

３

个方面进行统一建模的基于强化学习

Ａ３Ｃ

的电梯智能调度算法

。

让调

度电梯在不断地和环境交互学习过程中逐渐学习得到最优电梯调度策略

，

与基于具体环境建模的相关电梯调度算法进行对

比实验

，

基于

Ａ３Ｃ

的调度算法具有建模简单规范

、

适应性强和控制目标多样的优势

，

对比

Ａ３Ｃ

算法与部分强化学习算法

在电梯调度中的优劣

，

实验结果表明

，

Ａ３Ｃ

算法具备较好的调度性能

。

关键词

：

智能调度

；

电梯调度算法

；

电梯节能

；

强化学习

；

Ａ３Ｃ

中图法分类号

：

ＴＰ３９１

文献标识号

：

Ａ

文章编号

：

１０００

－

７０２４

（

２０２２

）

０１

－

０１９６

－

０７

ｄｏｉ

：

１０．１６２０８

／

ｊ

．ｉｓｓｎ１０００

－

７０２４．２０２２．０１．０２６

收稿日期

：

２０２０

－

０７

－

２９

；

修订日期

：

２０２１

－

０７

－

１６

基金项目

：

湖北省重大科技专项基金项目

（

２０１８ＡＢＡ０９９

）；

国家自然科学基金面上基金项目

（

６１２７２２７８

）；

湖北省自然科学基金重点基金

项目

（

２０１５ＣＦＡ０６１

）；

湖北省自然科学基金青年基金项目

（

２０１８ＣＦＢ４０８

）；

２０２０

年国网湖北省电力科技基金项目

（

５２１５Ｊ０２０００１２

）

作者简介

：

刘宇

（

１９９４

），

男

，

重庆人

，

博士研究生

，

ＣＣＦ

学生会员

，

研究方向为人工智能技术及其运用

；

＋

通讯作者

：

张聪

（

１９６８

），

男

，

上海人

，

博士

，

教授

，

研究方向为多媒体信息处理与网络通信

；

李涛

（

１９８６

），

男

，

湖北荆州人

，

硕士

，

高级工程师

，

研究方向为

电力系统及其自动化

。

Ｅ

－

ｍａｉｌ

：

ｈｂ

＿

ｗｈ

＿

ｚｃ

＠

１６３．ｃｏｍ

Ｍｏｄｅｌｉｎ

ｇ

ａｎｄ

ａ

ｐｐ

ｌｉｃａｔｉｏｎ

ｏｆ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎ

ｇ

Ａ３Ｃ

ｉｎ

ｅｌｅｖａｔｏｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍ

ＬＩＵ

Ｙｕ

１

，

２

，

ＺＨＡＮＧ

Ｃｏｎ

ｇ

２＋

，

ＬＩ

Ｔａｏ

３

（

１．Ｓｃｈｏｏｌ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

，

Ｗｕｈａｎ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｗｕｈａｎ

４３００００

，

Ｃｈｉｎａ

；

２．Ｓｃｈｏｏｌ

ｏｆ

Ｍａｔｈｅｍａｔｉｃｓ

ａｎｄ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

，

Ｗｕｈａｎ

Ｐｏｌ

ｙ

ｔｅｃｈｎｉｃ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｗｕｈａｎ

４３００００

，

Ｃｈｉｎａ

；

３．Ｄｅｖｅｌｏ

ｐ

ｍｅｎｔ

Ｐｌａｎｎｉｎ

ｇ

Ｄｅ

ｐ

ａｒｔｍｅｎｔ

，

Ｊｉｎ

ｇ

ｚｈｏｕ

Ｐｏｗｅｒ

Ｓｕ

ｐｐ

ｌ

ｙ

Ｃｏｍ

ｐ

ａｎ

ｙ

ｏｆ

Ｓｔａｔｅ

Ｇｒｉｄ

Ｈｕｂｅｉ

Ｅｌｅｃｔｒｉｃ

Ｐｏｗｅｒ

Ｌｉｍｉｔｅｄ

Ｃｏｍ

ｐ

ａｎ

ｙ

，

Ｊｉｎ

ｇ

ｚｈｏｕ

４３４０００

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ｔｏ

ｍａｋｅ

ｔｈｅ

ｅｌｅｖａｔｏｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｈａｖｅ

ｂｅｔｔｅｒ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｉｎ

ｔｈｅ

ａｓ

ｐ

ｅｃｔｓ

ｏｆ

ｅｌｅｖａｔｏｒ

ｐ

ｏｗｅｒ

ｃｏｎｓｕｍ

ｐ

ｔｉｏｎ

，

ｕｓｅｒ

ｅｘ

ｐ

ｅｒｉｅｎｃｅ

ａｎｄ

ａｌ

ｇ

ｏｒｉｔｈｍ

ａｄａ

ｐ

ｔａｂｉｌｉｔ

ｙ

，

ｂａｓｅｄ

ｏｎ

ｓｏｍｅ

ｅｌｅｖａｔｏｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

，

ｔｈｅ

ｅｌｅｖａｔｏｒ

ｉｎｔｅｌｌｉ

ｇ

ｅｎｔ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏ

－

ｒｉｔｈｍ

ｂａｓｅｄ

ｏｎ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎ

ｇ

Ａ３Ｃｗａｓ

ｃｏｎｓｔｒｕｃｔｅｄ

，

ｗｈｉｃｈ

ｕｎｉｆｉｅｄ

ｔｈｅ

ｔｈｒｅｅ

ａｓ

ｐ

ｅｃｔｓ

ｏｆ

ｓｃｈｅｄｕｌｉｎ

ｇ

ｅｎｖｉｒｏｎｍｅｎｔ

，

ｅｌｅｖａｔｏｒ

ｂｅｈａｖｉｏｒ

ａｎｄ

ｓｃｈｅｄｕｌｉｎ

ｇ

ｏｂ

ｊ

ｅｃｔｉｖｅｓ．Ｔｈｅ

ｅｌｅｖａｔｏｒ

ｌｅａｒｎｅｄ

ｔｈｅ

ｏ

ｐ

ｔｉｍａｌ

ｓｃｈｅｄｕｌｉｎ

ｇ

ｓｔｒａｔｅ

ｇｙ

ｉｎ

ｔｈｅ

ｐ

ｒｏｃｅｓｓ

ｏｆ

ｃｏｎｔｉｎｕｏｕｓ

ｉｎｔｅｒａｃｔｉｖｅ

ｌｅａｒｎｉｎ

ｇ

ｗｉｔｈ

ｔｈｅ

ｅｎｖｉｒｏｎｍｅｎｔ．Ｃｏｍ

ｐ

ａｒｅｄ

ｗｉｔｈ

ｓｏｍｅ

ｅｌｅｖａｔｏｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

，

ｔｈｅ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｏｆ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎ

ｇ

ｍｏｄｅｌｉｎ

ｇ

ｈａｓ

ｔｈｅ

ａｄｖａｎｔａ

ｇ

ｅｓ

ｏｆ

ｓｉｍ

ｐ

ｌｅ

ｍｏｄｅｌｉｎ

ｇ

ａｎｄ

ｈｉ

ｇ

ｈ

ｓｃｈｅｄｕｌｉｎ

ｇ

ｅｆｆｉｃｉｅｎｃ

ｙ

．Ａｔ

ｔｈｅ

ｓａｍｅ

ｔｉｍｅ

，

ｔｈｅ

ｅｘ

ｐ

ｅｒｉｍｅｎｔ

ｅｘ

ｐ

ｌｏｒｅｓ

ｔｈａｔ

Ａ３Ｃａｌ

ｇ

ｏｒｉｔｈｍ

ｈａｓ

ｂｅｔｔｅｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｔｈａｎ

ｓｏｍｅ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｓ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ｉｎｔｅｌｌｉ

ｇ

ｅｎｔ

ｓｃｈｅｄｕｌｉｎ

ｇ

；

ｅｌｅｖａｔｏｒ

ｓｃｈｅｄｕｌｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍ

；

ｅｌｅｖａｔｏｒ

ｅｎｅｒ

ｇｙ

ｓａｖｉｎ

ｇ

；

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎ

ｇ

；

Ａ３Ｃ

０

引

言

楼宇电梯调度

［

１

］

是一个复杂的过程

，

调度算法的设

计复杂性一般取决于调度环境的复杂性

，

当调度电梯数

量越多楼宇楼层越高时

，

从众多调度策略中选择最优调

度策略这本质上类似一个

ＮＰ

完全问题

。

当前随着认知

智能技术的发展

，

探索更加智能的调度算法

，

让调度算

法更具多环境适应性

、

调度高效性和低能耗性成为新的

研究热点

。

目前电梯调度算法往往基于特定需求方面进行建

下载后可阅读完整内容，剩余6页未读，立即下载

资源推荐

资源评论

懂得越多越要学

粉丝: 28
资源: 307

强化学习A3C算法在电梯调度中的建模及应用_刘宇1

A3C.zip_AC算法适用_DDPG_a3c应用_强化学习_强化学习模型

关键词：微网 优化调度 深度强化学习 A3C 需求响应 编程语言：python平台 主题：基于改进A3C算法的微网优

电梯控制算法

电梯调度算法（基于C语言）

elevator-reinforcementlearning-application:应用强化学习来提高电梯性能。 在多环境中使用QR-PPO，RPPO

一种基于Agent团队的强化学习模型与应用研究.pdf

关于电梯系统优化问题的数学模型.doc

医学图像分割方法综述_刘宇2017.pdf

基于MATLAB与V_REP的机器人加工轨迹生成与运动仿真_刘宇.caj

计算机围棋资料_01.rar

数据结构及算法C语言实现代码集

基于无人机影像的三维建模及正射影像精度评估

UML电梯系统建模

强化学习资料

arcgis开发基础篇之ESRI刘宇)电子书加视频

Python3机器学习实战教程.zip

刘宇-DevOps工具链条的错与对.zip

刘宇-DevOps工具链条的错与对.pdf

刘宇 ArcGIS Engine

数据库实验报告九 刘宇，张璇

波波老师的数据结构课程的C++代码实现，和波波老师的代码库目录一样：）.zip

两阶段鲁棒ATO 刘宇毕业论文

数据库实验报告指导书 刘宇，张璇

leetcode刷题app-suanfa:算法

基于社交网络用户特征的数据挖掘研究.pdf

数据库实验报告五 刘宇，张璇

Excel 2010电子表格_丰富工作表的内容_在工作表中插入屏幕截图.pdf

阿里优酷-刘宇-优酷基于OKR的敏捷项目实践.pdf

当ArcGIS遇见人工智能.pptx

Excel 2010电子表格_管理和美化工作表_Excel中使用主题.pdf

最新资源

关键词：微网优化调度深度强化学习 A3C 需求响应编程语言：python平台主题：基于改进A3C算法的微网优

elevator-reinforcementlearning-application:应用强化学习来提高电梯性能。在多环境中使用QR-PPO，RPPO

数据库实验报告九刘宇，张璇

数据库实验报告指导书刘宇，张璇

数据库实验报告五刘宇，张璇