大规模分布式监控系统研究
监控系统是管理基础设施和业务的不可或缺的核心工具,应该和信息化系统一起构建部署。监控方法论提供的指导原则可以缩小范围并集中精力关注海量时间序列里面的特定指标,监控指标在结合监控方法论进行落地实践后,才能更加有效地完成对信息化系统的监控目标。
监控指标是软件或硬件组件属性的度量,我们会追踪其状态并记录一段时间内的数据点,这些数据点被称作观察点,观察点包括数据值和时间戳两部分,将观察点按时间顺序排列而产生的集合,被称作时间序列。当前,大多数分布式监控系统都支持两种指标类型:原始值(gauge)和计数值(counter)。原始值这种类型的指标值是特定度量的快照,数字值通常是上下增减变化的 ;计数值这种类型的指标值随着时间的增加而不会减少。
当前,业界比较流行的两种监控方法 :USE (Utilization、Saturation 和 Error)、Google 四个黄金指标。这两个监控方法论并不是对立的,而是有各自的侧重范围 :前者侧重于主机级的监控,后者专注于应用程序级的监控。针对不同层级的监控指标,结合使用两种监控方法论才可以获得一个比较全面并有效的监控系统。
在一个大型信息化系统中,如何保障系统的稳定运行和服务质量是系统维护人员的重要职责,这就需要通过对系统和服务进行监控实现。通过监控,管理维护人员可以实时地掌握系统的运行状态,及时发现问题采取措施控制故障的影响面。监控是一个成熟的信息化系统中不可或缺的重要组成部分,而在不同的场景中,面对不同的问题,又需要采取不同的方案方法去落地监控实现。
监控系统的重要性在于它可以帮助管理和维护生产业务环境服务的技术人员掌握环境运行状况,及时获知系统中发生的问题甚至故障,作为分析、诊断故障的重要依据;对于业务产品或运营团队来说,监控系统中的监控指标可以作为衡量用户体验的依据,并为业务团队和人员提供反馈,以确保为客户提供满足质量要求的产品和服务。
大规模分布式监控系统的研究可以帮助信息化系统的管理人员理解监控的重要作用,掌握监控方案,选择并实现自己的监控方案。