构建基于AIOps的智能监控体系.pptx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
构建基于AIOps的智能监控体系是现代企业IT运维的重要趋势,尤其在互联网行业中,如美图这样的公司,其产品矩阵包括美图秀秀、美颜相机、美拍等,涉及短视频、直播、电商等多个领域,业务全球化布局,对监控体系的可靠性、可用性和用户体验有着极高的要求。AIOps(Artificial Intelligence for IT Operations)将人工智能技术应用于IT运维,旨在解决传统监控中的“全、快、准”问题,实现智能一体化监控。 构建智能一体化监控体系的目标是确保系统的可靠性、可用性和良好的用户体验。监控系统需要覆盖从基础资源到业务端的全维度,包括网络、流媒体、用户端、服务端等各个层面。例如,美图的监控矩阵包括用户质量监控、流媒体监控、业务监控、服务监控以及第三方拨测和APM,确保对所有关键环节的全面监控。 在解决监控问题上,速度是关键。通过端到端的监控,可以快速定位问题,减少故障影响时间。例如,美图采用自研流媒体监控和CDN监控,对直播推流、拉流、内容和DNS劫持等进行实时监控,同时结合第三方APM工具,确保服务的稳定运行。此外,用户质量监控则关注网络质量、设备资源、内容分发和用户体验,如崩溃、卡顿、SLA体系等。 在准确度方面,通过大数据监控套件(如InfluxDB、Zabbix、ELK、Prometheus、Open-falcon等)和流式处理技术,对数据进行深度分析和异常检测,提高问题识别的准确性。同时,建立统一告警平台,如美图的UAP,实现告警收敛、定制化规则和等级划分,避免告警风暴,确保重要告警能够及时传达。 在全面性上,一体化监控矩阵不仅涵盖基础设施,还包括服务实例、容器平台、项目集群等,通过日志中心收集和分析日志,监控产品运营指标,如请求吞吐量、错误率、CDN质量等。对于流媒体中心,还涉及到软硬件编码、美颜、AR、水印等功能的监控,并通过RTMP、HTTP、HLS等协议进行拉流和推流,利用动态码率和丢帧策略优化弱网环境下的流媒体传输。 数据驱动的优化案例表明,美图通过公有云和自研技术相结合的方式,优化直播推流源站和CDN播放,利用自研美颜SDK和流媒体中心,实现高效、高质量的流媒体服务。同时,监控中心提供状态实时汇报,通过数据处理和聚合,设置阈值预警,借助工具如Grafana进行可视化展示,形成一个闭环的反馈机制,不断根据数据进行优化。 构建基于AIOps的智能监控体系是通过全面、快速、准确的监控手段,结合数据驱动的决策优化,保障业务的稳定运行和用户体验,对于像美图这样业务复杂且全球化的公司至关重要。
- 粉丝: 9015
- 资源: 19万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 阿里云OSS Java版SDK.zip
- 阿里云api网关请求签名示例(java实现).zip
- 通过示例学习 Android 的 RxJava.zip
- 通过多线程编程在 Java 中发现并发模式和特性 线程、锁、原子等等 .zip
- 通过在终端中进行探索来学习 JavaScript .zip
- 通过不仅针对初学者而且针对 JavaScript 爱好者(无论他们的专业水平如何)设计的编码挑战,自然而自信地拥抱 JavaScript .zip
- 适用于 Kotlin 和 Java 的现代 JSON 库 .zip
- yolo5实战-yolo资源
- english-chinese-dictionary-数据结构课程设计
- mp-mysql-injector-spring-boot-starter-sql注入