这篇监控系统的建设思路,让你彻底找出性能瓶
颈!!!
一个好的监控系统,不仅可以实时暴露系统的各种问题,更可以根据这些监控
到的状态,自动分析和定位大致的瓶颈来源,从而更精确地把问题汇报给相关
团队处理。要做好监控,最核心的就是全面的、可量化的指标,这包括系统和
应用两个方面。
从系统来说,监控系统要涵盖系统的整体资源使用情况,比如我们前面讲过的
CPU、内存、磁盘和文件系统、网络等各种系统资源。
而从应用程序来说,监控系统要涵盖应用程序内部的运行状态,这既包括进程
的 CPU、磁盘 I/O 等整体运行状况,更需要包括诸如接口调用耗时、执行过程
中的错误、内部对象的内存使用等应用程序内部的运行状况。
二、系统监控
1、USE 法
在开始监控系统之前,你肯定最想知道,怎么才能用简洁的方法,来描述系统
资源的使用情况。你当然可以使用专栏中学到的各种性能工具,来分别收集各
种资源的使用情况。不过不要忘记,每种资源的性能指标可都有很多,使用过
多指标本身耗时耗力不说,也不容易为你建立起系统整体的运行状况。
在这里,我为你介绍一种专门用于性能监控的 USE(Utilization Saturation
and Errors)法。
USE 法把系统资源的性能指标,简化成了三个类别,即使用率、饱和度以及错
误数。
� 使用率,表示资源用于服务的时间或容量百分比。100% 的使用率,表示容量
已经用尽或者全部时间都用于服务。
� 饱和度,表示资源的繁忙程度,通常与等待队列的长度相关。100% 的饱和
度,表示资源无法接受更多的请求。
� 错误数表示发生错误的事件个数。错误数越多,表明系统的问题越严重。
评论0