铁路数据中心智能运维管理系统初步研究.docx资源-CSDN文库

版权申诉

190 浏览量 2022-11-29 17:37:32 上传评论收藏 259KB DOCX 举报

资源推荐

资源详情

资源评论

随着铁路信息化的不断发展，铁路数据中心运维工作日趋复杂。当前，云计算已逐渐

成为铁路信息系统的主流技术架构，铁路数据中心云化进程不断加快，其运行与维护（简

称：运维）环境的复杂化和异构特征越发突出，面对着更加多样化的业务需求，铁路数据

中心的日常运维工作不得不投入更多的人力和时间，成本越来越高。

中国铁路信息科技集团有限公司发布的《十四五战略发展规划》中指出，铁路数据中

心将形成两地三中心架构，构建统一运维管理，形成弹性分配资源的技术与服务管理体系

[1]

。两地三中心即同城双活中心、主数据中心和异地数据中心，且远期铁路数据中心将朝

着多地多中心方向发展。

为应对目前铁路数据中心运维工作面对的压力和挑战，适应铁路信息化未来发展要

求，铁路数据中心需要采用更为高效的运维模式，实现异地多中心的统一运维管理，能够

及时、准确地掌控各铁路数据中心资源及业务应用系统的运行情况，实现铁路数据中心运

维人力资源的统一调配，保障铁路信息系统安全、稳定地持续运行。

近年来，智能运维在信息技术领域受到广泛关注，随着大数据分析、云应用性能管理

（APM，Application Performance Management）、智能异常检测、机器学习等技术的兴起

和逐渐成熟，数据中心运维逐渐转向数字化和智能化

[2]

，由传统模式向智能运维管理

（AIOps，Artificial Intelligence for IT Operations）演进。

本文结合铁路数据中心云化趋势和多地多中心发展要求，为实现全路铁路数据中心的

集中运维管理，提出铁路数据中心智能运维管理系统方案，重点对运维数据采集、运维监

控指标体系及运维数据存储展开研究。

1. 铁路数据中心智能运维目标

（1）实现全路铁路数据中心集中运维管理：建立铁路运维管理中心，可采集和汇总

异地多铁路数据中心的运维数据（日志、监控信息、应用信息等），通过大数据处理和智

能分析，全面掌控各铁路数据中心整体运行状况，包括网络设备、物理服务器、存储设

备、虚拟服务器、操作系统、数据库、应用系统等运行状况。

（2）统一铁路数据中心运维管理服务水平：规范各类监控对象的监控数据采集，建

立标准的运维管理指标体系，以统一各铁路数据中心运维管理服务水平。

（3）提高铁路数据中心运维效率：通过海量运维数据有效采集、存储、自动处理和

智能分析，提供异常检测、故障分析、运维辅助决策等运维应用，支持阶梯式运维团队协

同工作，确保铁路数据中心安全稳定运行和资源配置持续优化。

2. 铁路数据中心智能运维管理系统方案

备，云平台服务、虚拟机、操作系统、数据库、中间件等系统软件，以及各业务应用系统

等。

（2）数据采集层：包括代理和采集控制平台；代理从铁路数据中心收集各类监控对

象的运行状态数据（即原始的运维监控数据），按照统一口径进行统计分析，生成运维监

控指标数据，与原始的运维监控数据一起上传给采集控制平台；采集控制平台负责接收代

理上传的数据，同时对代理进行调度管理。

（3）数据存储层：存储从监控对象采集得到的原始运维数据，以及经分析处理后的

运维监控指标数据。

（4）业务服务层：完成运维指标数据的关联分析和智能分析，为运维管理中心阶梯

式运维团队（包括运维管理人员及一线、二线、三线的运维人员）提供运维数据可视化展

示、统计报表、自动告警通知，为异常检测、故障分析、运维辅助决策等运维业务提供强

有力支持，建立起 7x24 h 的应急响应机制。

2.2 数据采集层

数据采集层主要由部署在铁路数据中心一侧的代理和运维管理中心一侧的采集控制平

台构成。

（1）代理是部署在各个铁路数据中心不同网络区域内的各类专用程序，可采用拉和

推 2 种的工作模式，收集各类监控对象的运维数据。代理程序还会对运维数据进行预处理

[3]

，剔除重复数据、空值数据和异常数据等，然后按照统一口径进行统计分析，生成运维

监控指标数据，将原始的运维数据与监控指标数据一起上传至采集控制平台。

（2）采集控制平台是铁路数据中心运维管理系统的核心，负责接收代理上传的数

据，并对代理进行调度管理，控制代理采集和上报数据的周期；设置有插件库，可按需向

代理下发插件，完成代理程序的升级更新。采集控制平台主要由数据服务网关、数据缓存

队列和大数据处理组件 3 个组件来完成。

数据服务网关由 LVS+Keepalive+Nginx 组成；其中，LVS 负责接入代理数据流，可提

供 4 层高效负载均衡；Keepalive 保障 LVS 具有高可用性，避免 LVS 出现单点故障；

Nginx 负责将数据均衡传输至数据缓存队列，可支持 7 层应用数据传输负载均衡。

数据缓存队列采用 Kafka 实现，将接收的运维监控数据缓存起来，并通知采集控制平

台尽快将其存入数据库。Kafka 是一个分布式、多分区、多订阅者模式的日志和消息系

统，支持冗余备份，具有处理速度快、高吞吐、支持分布式部署等特点。

大数据处理组件 Spark 用于海量运维监控数据的大数据处理。通过流式计算，采用

ETL 技术对运维监控指标数据进行清理、过滤、转换定义，实现数据标准化、规范化。

Spark 可以采用图形化和表格的形式进行快捷配置，对运维监控指标数据进行解析、提

取、清洗、替换、分类、加注标签、添加信息项、归并等处理，并将海量运维数据快速存

入数据库中。

剩余13页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3691
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip