运维必知必会的监控知识体系全梳理
作者介绍
徐亮伟,江湖人称标杆徐,曾负责大规模集群架构自动化运维工作。擅长自动化运
维,并且在分布式、Python自动化、云计算虚拟化等领域有较深入研究。个人博客:
徐亮伟架构师之路。
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的
数据用于追查定位问题。
目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高
的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认
识。
一、监控目标
每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,
监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。
1. 对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控);
2. 实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的
状态,是正常、异常、或者故障。
3. 保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行
4. 保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障
报警,在第一时间处理解决,从而保证业务持续性的稳定运行。
二、监控方法
徐亮伟