KUNLUN 9016 操作系统异常重启故障案例分析
1.故障类别
KUNLUN 9016 操作系统异常重启软件故障
2.故障现象
Kunlun9016 组成 12T HANA 环境,备节点操作系统异常黑屏无响应, KunLun
CMC 管理界面无硬件告警,重启操作系统后,恢复正常。其中使用两块 ES3600C
3.2T NVMe SSD 卡做软 raid,主机日志有一块卡报 IO 超时。
3.故障分析
Nand Flash 颗粒的 Retention 机制触发 ForceGC 时,需要消耗 SSD 控制器资源进
行后台数据搬移;当盘片首次全盘写满后,进行有效数据整理,此时也需要消耗较多
SSD 控制器资源。占用大量的 SSD 控制器资源,导致控制器处理 I/O 时延变大,主要
表现为写 I/O 响应超时。
4.解决方案
将 KunLun 服务器上的两张 ES3600C 3.2T NVMe SSD 卡的固件升级为 3.10 后正
常。