后端 1
可视化全链路日志追踪 1
设计模式二三事 26
基于代价的慢查询优化建议 49
Java 系列|远程热部署在美团的落地实践 71
日志导致线程 Block 的这些坑,你不得不防 92
基于 AI 算法的数据库异常监测系统的设计与实现 154
Replication(上):常见复制模型 & 分布式系统挑战 171
Replication(下):事务,一致性与共识 197
TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 234
CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 258
工程效能 CI/CD 之流水线引擎的建设实践 291
美团外卖搜索基于 Elasticsearch 的优化实践 312
美团图灵机器学习平台性能起飞的秘密(一) 332
提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 350
标准化思想及组装式架构在后端 BFF 中的实践 371
外卖广告大规模深度学习模型工程实践|美团外卖广告工程实践专题连载 392
数据库全量 SQL 分析与审计系统性能优化之旅 427
目录
可视化全链路日志追踪
作者:海友 怀宇 亚平 立森
1. 背景
1.1
业务系统日益复杂
随着互联网产品的快速发展,不断变化的商业环境和用户诉求带来了纷繁复杂的业务
需求。业务系统需要支撑的业务场景越来越广、涵盖的业务逻辑越来越多,系统的复
杂度也跟着快速提升。与此同时,由于微服务架构的演进,业务逻辑的实现往往需要
依赖多个服务间的共同协作。总而言之,业务系统的日益复杂已经成为一种常态。
1.2
业务追踪面临挑战
业务系统往往面临着多样的日常客诉和突发问题,“业务追踪”就成为了关键的应对
手段。业务追踪可以看做一次业务执行的现场还原过程,通过执行中的各种记录还原
出原始现场,可用于业务逻辑执行情况的分析和问题的定位,是整个系统建设中重要
的一环。
目前在分布式场景下,业务追踪的主流实现方式包括两类,一类是基于日志的 ELK
方案,一类是基于单次请求调用的会话跟踪方案。然而随着业务逻辑的日益复杂,上
述方案越来越不适用于当下的业务系统。
1.2.1
传统的 ELK 方案
日志作为业务系统的必备能力,职责就是记录程序运行期间发生的离散事件,并且在
后端
2 > 2022年美团技术年货
事后阶段用于程序的行为分析,比如曾经调用过什么方法、操作过哪些数据等等。在
分布式系统中,ELK 技术栈已经成为日志收集和分析的通用解决方案。如下图 1 所
示,伴随着业务逻辑的执行,业务日志会被打印,统一收集并存储至 Elasticsearch
(下称 ES)
[2]
。
图 1 业务系统 ELK 案例
传统的 ELK 方案需要开发者在编写代码时尽可能全地打印日志,再通过关键字段从
ES 中搜集筛选出与业务逻辑相关的日志数据,进而拼凑出业务执行的现场信息。然
而该方案存在如下的痛点:
日志搜集繁琐:虽然 ES 提供了日志检索的能力,但是日志数据往往是缺乏结构性的
文本段,很难快速完整地搜集到全部相关的日志。日志筛选困难:不同业务场景、业
务逻辑之间存在重叠,重叠逻辑打印的业务日志可能相互干扰,难以从中筛选出正确
的关联日志。日志分析耗时:搜集到的日志只是一条条离散的数据,只能阅读代码,
再结合逻辑,由人工对日志进行串联分析,尽可能地还原出现场。
综上所述,随着业务逻辑和系统复杂度的攀升,传统的 ELK 方案在日志搜集、日志
筛选和日志分析方面愈加的耗时耗力,很难快速实现对业务的追踪。