【Pinterest的监控系统】是全球运维大会2017北京站的主题之一,由Pinterest的监控部经理孟晓桥分享。Pinterest作为一个大型图片探索引擎,拥有庞大的用户基础和数据规模,其背后是基于亚马逊云服务的架构,包括自开发的微服务和数据存储平台。为了保证服务的稳定性和高可用性,Pinterest构建了一套全面的监控系统。 监控系统主要由以下几个部分组成: 1. **基于时序数据的监控和警报**:通过Graphite和openTSDB等工具收集和存储应用程序及操作系统的指标,提供实时报警功能。系统规模巨大,每秒处理250万个数据点和3.5万个查询请求,其中大部分用于报警系统。 2. **日志搜索**:为了实时了解系统输出的日志并进行报警,Pinterest开发了自定义的日志索引和存储解决方案,每秒可处理250万个数据点的采集和大量查询请求。 3. **分布式跟踪系统**:通过分布式跟踪,能够理解用户请求如何影响后台服务,定位延迟问题,找出性能瓶颈,并实时监控系统和应用指标。 系统的发展历程经历了从早期的Ganglia到Graphite和openTSDB的演进,以及从运维团队中分离出专门的监控小组来开发和优化监控工具。监控系统的挑战包括如何处理大规模数据、确保数据可靠性、提高查询速度以及集成不同监控系统。为此,Pinterest采取了如数据降维、冷热数据分离、多维度数据分片、日志标准化等策略,同时结合主动和被动监控,提升整体效率。 此外, Pinterest的运维指标非常严格,要求可靠性超过99.9%,这意味着对于这样一个高流量的平台,任何微小的中断都可能导致重大影响。为了达到这个目标,监控系统不仅要能快速发现和定位问题,还要具备强大的数据处理和分析能力。 总结来说,Pinterest的监控系统是其业务稳定运行的关键,它通过不断的技术创新和优化,实现了对庞大复杂系统的高效监控,确保了用户体验和服务质量。这对于我们理解大规模分布式系统监控的实践和挑战提供了宝贵的参考。
- 粉丝: 84
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助