智能故障预测与应用健康管理实践
智能故障预测与应用健康管理是基于大数据和人工智能技术的应用健康管理实践。其目标是通过智能故障预测和健康管理,减少应用的故障产生,快速修复故障,提高应用的可用度和可靠性。
1. OPS 的目标与工作
OPS 的目标是减少应用的故障产生,快速修复故障,提高应用的可用度和可靠性。OPS 的工作围绕这个公式展开的可用度 = MTBF / (MTBF + MTTR)。其中,MTBF 是平均无故障工作时间,MTTR 是平均修复时间。
2. 故障预测与健康管理(PHM)
PHM 是一种智能故障预测和健康管理技术,通过对应用的实时监控和数据分析,预测应用的故障可能性,并采取相应的措施来预防和修复故障。PHM 的应用领域包括 manufacture、航空、医疗、金融等。
3. PHM 方法论
PHM 方法论包括流程、模型和要求三个方面。PHM 流程包括指标采集、数据预处理、故障诊断、健康状态通知和故障预测五个步骤。PHM 模型包括基于故障状态信息、基于异常现象信息、基于使用环境信息和基于损伤标尺信息四种模型。PHM 要求包括及时性、经济性和可评价验证结果有效性三个方面。
4. 故障预测流程
故障预测流程包括指标采集、数据预处理、故障诊断、健康状态通知和故障预测五个步骤。其中,指标采集是从应用中收集各种指标数据,数据预处理是对收集到的数据进行清洁和处理,故障诊断是对应用的故障进行诊断,健康状态通知是对应用的健康状态进行通知,故障预测是对应用的故障进行预测。
5. OPS 的实践
Qunar 的运维演进是智能故障预测和应用健康管理的实践。Qunar 的实践包括OPS 的目标和工作、故障预测与健康管理、PHM 方法论和故障预测流程等几个方面。
6._smart_OPS 的目标和工作
_smart_ OPS 的目标是减少应用的故障产生,快速修复故障,提高应用的可用度和可靠性。_smart_ OPS 的工作围绕这个公式展开的可用度 = MTBF / (MTBF + MTTR)。
7. 故障预测与健康管理的应用
故障预测与健康管理的应用包括减少应用的故障产生,快速修复故障,提高应用的可用度和可靠性等几个方面。同时,故障预测与健康管理还可以应用于制造业、航空业、医疗业、金融业等领域。
8. PHM 历史沿革
PHM 的历史沿革可以追溯到 NASA 提出的 VHM 飞行健康监控,它是ISHM 综合系统监控管理的基础。JSF 项目的启动大大推动了 PHM 的发展。
9. PHM 方法论的要求
PHM 方法论的要求包括及时性、经济性和可评价验证结果有效性三个方面。及时性要求预留足够的维修保障时间,经济性要求预测成本 < 故障损失,验证结果有效性要求可量化验证。
10. 故障预测模型
故障预测模型包括指标趋势预测、时序异常检测、事件关联分析等几个方面。指标趋势预测是对应用的指标进行趋势预测,时序异常检测是对应用的时序数据进行异常检测,事件关联分析是对应用的事件进行关联分析。
11. 故障知识库
故障知识库是对应用的故障进行知识库化的过程。故障知识库可以对应用的故障进行场景匹配、运维经验等几个方面的分析。
12. 策略阈值设置
策略阈值设置是对应用的阈值进行设置的过程。策略阈值设置可以分为静态阈值设置和动态阈值设置两个方面。静态阈值设置是对应用的阈值进行固定设置,动态阈值设置是对应用的阈值进行动态调整。
13. 历史数据比对
历史数据比对是对应用的历史数据进行比对的过程。历史数据比对可以分为短期环比、长期环比和同比三个方面。短期环比是对应用的短期数据进行比对,长期环比是对应用的长期数据进行比对,同比是对应用的同期数据进行比对。