没有合适的资源?快使用搜索试试~ 我知道了~
高能物理科学数据中心智能运维系统.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 186 浏览量
2022-11-02
16:47:39
上传
评论
收藏 879KB DOCX 举报
温馨提示
高能物理科学数据中心智能运维系统.docx
资源推荐
资源详情
资源评论
引言
国家高能物理科学数据中心由中国科学院高能物理研究所建设和运行,以
高能物理领域科研活动中产生的科学数据为核心实现数据资源、软件工具、数
据分析等资源能力的汇交和共享。数据中心覆盖北京数据中心本部、大湾区分
中心、四川稻城站点等多个地域,面向全球的科研人员、学生等用户提供高能
物理、中子科学、光子科学、天体物理等基础研究以及多学科交叉研究服务。
国家高能物理科学数据中心与国内外相关领域的大型数据中心建立广泛的合
作,目前拥有先进的高能物理数据资源平台,包含近 30PB 存储空间、数万 CPU
核的计算能力、万兆国际网络链路和完善的信息化支撑系统,国内外专业用户
达近万人。
随着数据中心规模日益增长,服务范围不断扩大,数据中心的运维挑战越来
越 大 。 面 对 日 益 复 杂 的 运 维 需 求 ,欧洲 核子 研究 中心 (CERN)和 国际 网格
(WLCG)引入大数据技术用于监控规模庞大的计算和存储资源
[1]
,美国国家能
源研究科学计算中心(NERSC)则将 ELK 组件用于管理计算集群
[2]
。国内多
家数据中心也在积极探索大规模集群资源的有效运维管理手段。
高能物 理科学数据中心在基础设施管理、计算服务环境、科 学数据访问、
跨地域资源协同、网络安全防护等运维方面,呈现监控数据种类多样化、监控
内容复杂化的特征,亟需统一的智能化综合运维监控系统,打破传统运维工具数
据孤岛,关联多维度监控信息,面向数据中心多种类运维场景提供运维支撑。
1 需求与设计
为了应对数据中心运维数据多场景应用需求,解决传统运维方式的各种问
题,本文引入工业大数据技术
[3]
涵盖的多数据源实时采集、数据质量控制、数据
相互关联、面向多业务共享数据等思想和机器学习技术在数据分析中自动化、
规模化的优势,设计了一个综合的数据中心智能运维系统,有效地解决了数据中
心监控数据数据量大、产生速度快、数据类型多样、价值密度低的 4V
[4,5,6]
问题,
打通了运维数据价值输出技术链条,加速了运维监控从数据持久化、统一化到
数据业务化、生态化的价值演进。
1.1 设计目标
(1)统一融合的运维数据系统,统一的数据汇入和标准化的数据输出
高能物理科学数据中心运维监控工具种类繁多,面向不同监控目标的工具
包含 Ganglia、Nagios、Syslog、Cacti、Zabbix、Perfsonar 等开源工具以及
WAF、流量探针等商业工具,监控数据源头类型多样化。分中心和多站点运维
监控,同样面临监控数据源头地域多样化的挑战。新的运维数据系统需要采用
分散采集、统一管理的方式,提供标准化的数据输出面向不同的运维数据分析
场景。
(2)灵活高效的处理分析,可定制化的运维数据分析流程和近实时的数据
处理能力
基于数据驱动的数据中心运维,需要对汇聚的运维数据快速处理,基于分析
结果调整运维策略,高效的运维数据处理能力能够有效提升运维响应效率,减小
故障影响范围。同时,针对运维过程中随时新增的数据分析需求,运维数据分析
能够灵活调整或丰富处理流程,生成期望的运维数据分析结果,也亟需设计实现。
(3)运维数据和应用场景融合,支持监控数据业务化、数据分析智能化
面向不同 的运维场景,丰富运维数据 的应用属性 ,提升运维数据质量,实 现
运维数据业务化,是数据中心运维系统的最终价值体现。另外,面向特性运维场
景,结合机器学习技术 ,训练数据分析模型,进一步探索运维数据潜在的应用价
值,提升运维系统智能化功能。
(4)智能运维系统云化,容器化部署,降低运维成本
智能运维系统涉及采集、分析、存储、应用等多个流程,在硬件层面上,需
要对 CPU、内存、硬盘、网络等资源进行统一管理和调配,日常维护十分繁琐。
基于容器化技术实现智能运维系统统一部署,将系统云虚拟化,可以更加灵活管
理应用软件,合理分配 硬件资源,保障系统服务的 高可用性 ,极大地降低数据中
心智能运维系统的维护成本。
1.2 总体架构
为了满足设计目标,支撑数据中心多站点运维监控需求,本文设计实现了如
图 1 所示的智能运维系统。
图 1
图 1 数据中心智能运维系统架构
Fig.1 The architecture of data center intelligent operation and maintenance
platform
各个层级之间使用接口或中间件进行数据交换,实现各层功能解耦合,支持
后续灵活扩展各层功能模块。
最底层是生态集成层,用于实时汇聚数据中心各项运维监控数据。高能物
理科学数据中心日常运维监控种类繁多,可以概括为基础设施监控、集群服务、
用户行为、网络安全、异地站点监控等范畴。基础设施监控范畴,包含机架式
服务器、刀片服务器、高密度服务器、网络设备等硬件设备监控;虚拟机、容
器等虚拟设备监控;Windows、Unix、Linux 等操作系统监控;以及机房电力、UPS、
温湿度、空调、漏水等动力环境监控。集群服务监控范畴,包含账号认证、作
业调度、资源管理、运行环境配置等集群计算服务;科学软件更新发布、科学
数据存储访问、数据库资源访问等集群存储服务;网络连通性、网络带宽流量、
数据传输延时等集群网络服务。用户行为监控范畴,包含用户登陆行为日志、
作业提交行为日志、科学数据文件访问行为日志、科学数据网站访问日志等。
网络安全监控范畴,包含密码暴力破解、DNS 攻击、挖矿攻击等。异地站点监
控范畴,除了各个站点以上四个主要监控范畴外,还包括各站点联通状态、广域
网传输质量等信息。数据中心针对多样化的监控需求,部署了相对应的监控工
具,用于采集监控数据。数据中心运维系统生态采集层,通过配置中心统一管理
控制分散部署的数据采集模块,对多种监控工具的监控数据进行实时采集,统一
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 4451
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功