构建基于AIOps的智能监控体系是现代企业IT运维的重要趋势,尤其在互联网行业中,如美图这样的公司,其产品矩阵包括美图秀秀、美颜相机、美拍等,涉及短视频、直播、电商等多个领域,业务全球化布局,对监控体系的可靠性、可用性和用户体验有着极高的要求。AIOps(Artificial Intelligence for IT Operations)将人工智能技术应用于IT运维,旨在解决传统监控中的“全、快、准”问题,实现智能一体化监控。
构建智能一体化监控体系的目标是确保系统的可靠性、可用性和良好的用户体验。监控系统需要覆盖从基础资源到业务端的全维度,包括网络、流媒体、用户端、服务端等各个层面。例如,美图的监控矩阵包括用户质量监控、流媒体监控、业务监控、服务监控以及第三方拨测和APM,确保对所有关键环节的全面监控。
在解决监控问题上,速度是关键。通过端到端的监控,可以快速定位问题,减少故障影响时间。例如,美图采用自研流媒体监控和CDN监控,对直播推流、拉流、内容和DNS劫持等进行实时监控,同时结合第三方APM工具,确保服务的稳定运行。此外,用户质量监控则关注网络质量、设备资源、内容分发和用户体验,如崩溃、卡顿、SLA体系等。
在准确度方面,通过大数据监控套件(如InfluxDB、Zabbix、ELK、Prometheus、Open-falcon等)和流式处理技术,对数据进行深度分析和异常检测,提高问题识别的准确性。同时,建立统一告警平台,如美图的UAP,实现告警收敛、定制化规则和等级划分,避免告警风暴,确保重要告警能够及时传达。
在全面性上,一体化监控矩阵不仅涵盖基础设施,还包括服务实例、容器平台、项目集群等,通过日志中心收集和分析日志,监控产品运营指标,如请求吞吐量、错误率、CDN质量等。对于流媒体中心,还涉及到软硬件编码、美颜、AR、水印等功能的监控,并通过RTMP、HTTP、HLS等协议进行拉流和推流,利用动态码率和丢帧策略优化弱网环境下的流媒体传输。
数据驱动的优化案例表明,美图通过公有云和自研技术相结合的方式,优化直播推流源站和CDN播放,利用自研美颜SDK和流媒体中心,实现高效、高质量的流媒体服务。同时,监控中心提供状态实时汇报,通过数据处理和聚合,设置阈值预警,借助工具如Grafana进行可视化展示,形成一个闭环的反馈机制,不断根据数据进行优化。
构建基于AIOps的智能监控体系是通过全面、快速、准确的监控手段,结合数据驱动的决策优化,保障业务的稳定运行和用户体验,对于像美图这样业务复杂且全球化的公司至关重要。