Dapper，大规模分布式系统的跟踪系统_分布式数据处理的缺点资源-CSDN文库

5星 · 超过95%的资源需积分: 32 29 浏览量 2015-07-03 01:14:34 上传评论 3 收藏 1.09MB PDF 举报

### Dapper：大规模分布式系统的跟踪系统 #### 一、引言与背景随着互联网技术的发展，现代互联网服务的实现越来越依赖于复杂的、大规模分布式的集群架构。这些集群由多个不同的软件模块组成，这些模块可能由不同的团队开发，采用不同的编程语言实现，并分布在数千台服务器上，跨越多个数据中心。这种高度分散的架构带来了极大的灵活性和扩展性，同时也增加了系统理解和维护的难度。为了更好地管理和优化这类复杂系统，需要有一种能够帮助理解系统行为、分析性能问题的工具。 #### 二、Dapper：分布式跟踪系统 ##### 2.1 概述 Dapper 是 Google 开发的一个分布式跟踪系统，专门用于解决大规模分布式系统中的跟踪和监控问题。它的设计目标是在不影响现有应用和服务的前提下，提供一种低损耗、应用透明的大范围部署方案。Dapper 的设计受到了先前一些分布式系统跟踪工具（如 Magpie 和 X-Trace）的影响，但通过引入诸如采样率等创新机制，成功地实现了在生产环境中的广泛应用。 ##### 2.2 关键特性 - **低损耗**：跟踪系统对在线服务的影响必须尽可能小，特别是在高度优化的服务中，任何额外的负载都可能导致性能下降。 - **应用透明**：跟踪系统应该对应用程序开发人员透明，即不需要他们特别配置或更改代码即可使用。 - **广泛部署**：跟踪系统需要能够在整个组织范围内广泛部署，覆盖所有相关的服务和组件。 ##### 2.3 实现细节 - **采样策略**：Dapper 使用了一种高效的采样策略，只记录一部分交易，从而减少了数据量并降低了对系统的负载。这种策略确保了跟踪系统能够持续运行而不影响服务性能。 - **公共库集成**：为了减少对各个服务的侵入性，Dapper 主要通过在公共库中集成跟踪代码的方式实现，这样可以最小化对现有服务的影响。 - **数据收集与分析**：收集到的数据会被发送到中央存储系统，供进一步分析和可视化使用。通过对这些数据的分析，开发人员可以了解系统性能瓶颈所在，并采取相应的优化措施。 #### 三、Dapper的应用场景 Dapper 在 Google 内部的应用场景非常广泛，不仅限于监控和调试，还包括： - **性能分析**：通过分析交易路径，识别慢速操作和服务调用。 - **故障诊断**：当系统发生故障时，快速定位问题根源，缩短恢复时间。 - **容量规划**：了解服务的实际使用情况，为未来资源分配和扩容提供依据。 - **用户体验优化**：监测用户请求的响应时间，提高整体用户体验。 #### 四、案例研究：全局搜索以全局搜索为例，当用户发起一个搜索请求时，可能会涉及到数百台服务器和多个子系统。这些子系统负责处理广告、拼写检查、图片、视频和新闻等内容。在这种情况下，Dapper 可以帮助开发人员追踪请求在整个系统中的流转过程，从而识别出哪些环节导致了性能瓶颈。 #### 五、总结 Dapper 作为一款强大的分布式跟踪系统，在实际应用中证明了其价值。它不仅解决了大规模分布式系统中的跟踪难题，还促进了更高效的问题诊断和性能优化。随着分布式系统越来越普遍，类似 Dapper 这样的跟踪工具将成为不可或缺的一部分。在未来，我们可以期待更多类似的技术创新，以支持更加复杂和动态的分布式系统架构。

资源详情

资源评论

Dapper，大规模分布式系统的跟踪系统

转载:http://bigbully.github.io/Dapper-translation/

作者：Benjamin H. Sigelman, Luiz Andr´e Barroso, Mike Burrows, Pat Stephenson, Manoj Plakal, Donald

Beaver, Saul Jaspan, Chandan Shanbhag

概述

当代的互联网的服务，通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的

软件模块集上，这些软件模块，有可能是由不同的团队开发、可能使用不同的编程语言来实现、有

可能布在了几千台服务器，横跨多个不同的数据中心。因此，就需要一些可以帮助理解系统行为、

用于分析性能问题的工具。

Dapper-- Google 生产环境下的分布式跟踪系统，应运而生。那么我们就来介绍一个大规模集群的跟

踪系统，它是如何满足一个低损耗、应用透明的、大范围部署这三个需求的。当然 Dapper 设计之

初，参考了一些其他分布式系统的理念，尤其是 Magpie 和 X-Trace，但是我们之所以能成功应用在生

产环境上，还需要一些画龙点睛之笔，例如采样率的使用以及把代码植入限制在一小部分公共库的

改造上。

自从 Dapper 发展成为一流的监控系统之后，给其他应用的开发者和运维团队帮了大忙，所以我们今

天才发表这篇论文，来汇报一下这两年来，Dapper 是怎么构建和部署的。Dapper 最初只是作为一

个自给自足的监控工具起步的，但最终进化成一个监控平台，这个监控平台促生出多种多样的监控

工具，有些甚至已经不是由 Dapper 团队开发的了。下面我们会介绍一些使用 Dapper 搭建的分析工

具，分享一下这些工具在 google 内部使用的统计数据，展现一些使用场景，最后会讨论一下我们迄

今为止从 Dapper 收获了些什么。

1. 介绍

我们开发 Dapper 是为了收集更多的复杂分布式系统的行为信息，然后呈现给 Google 的开发者们。

这样的分布式系统有一个特殊的好处，因为那些大规模的低端服务器，作为互联网服务的载体，是

一个特殊的经济划算的平台。想要在这个上下文中理解分布式系统的行为，就需要监控那些横跨了

不同的应用、不同的服务器之间的关联动作。

下面举一个跟搜索相关的例子，这个例子阐述了 Dapper 可以应对哪些挑战。比如一个前段服务可

能对上百台查询服务器发起了一个 Web 查询，每一个查询都有自己的 Index。这个查询可能会被发

送到多个的子系统，这些子系统分别用来处理广告、进行拼写检查或是查找一些像图片、视频或新

闻这样的特殊结果。根据每个子系统的查询结果进行筛选，得到最终结果，最后汇总到页面上。我

们把这种搜索模型称为“全局搜索”（universal search）。总的来说，这一次全局搜索有可能调用上千台

服务器，涉及各种服务。而且，用户对搜索的耗时是很敏感的，而任何一个子系统的低效都导致导

致最终的搜索耗时。如果一个工程师只能知道这个查询耗时不正常，但是他无从知晓这个问题到底

是由哪个服务调用造成的，或者为什么这个调用性能差强人意。首先，这个工程师可能无法准确的

定位到这次全局搜索是调用了哪些服务，因为新的服务、乃至服务上的某个片段，都有可能在任何

时间上过线或修改过，有可能是面向用户功能，也有可能是一些例如针对性能或安全认证方面的功

能改进。其次，你不能苛求这个工程师对所有参与这次全局搜索的服务都了如指掌，每一个服务都

有可能是由不同的团队开发或维护的。再次，这些暴露出来的服务或服务器有可能同时还被其他客

户端使用着，所以这次全局搜索的性能问题甚至有可能是由其他应用造成的。举个例子，一个后台

服务可能要应付各种各样的请求类型，而一个使用效率很高的存储系统，比如 Bigtable，有可能正被

反复读写着，因为上面跑着各种各样的应用。

上面这个案例中我们可以看到，对 Dapper 我们只有两点要求：无所不在的部署，持续的监控。无

所不在的重要性不言而喻，因为在使用跟踪系统的进行监控时，即便只有一小部分没被监控到，那

么人们对这个系统是不是值得信任都会产生巨大的质疑。另外，监控应该是 7x24 小时的，毕竟，系

统异常或是那些重要的系统行为有可能出现过一次，就很难甚至不太可能重现。那么，根据这两个

明确的需求，我们可以直接推出三个具体的设计目标：

1.低消耗：跟踪系统对在线服务的影响应该做到足够小。在一些高度优化过的服务，即使一点点损耗

也会很容易察觉到，而且有可能迫使在线服务的部署团队不得不将跟踪系统关停。

2. 应用级的透明：对于应用的程序员来说，是不需要知道有跟踪系统这回事的。如果一个跟踪系统

想生效，就必须需要依赖应用的开发者主动配合，那么这个跟踪系统也太脆弱了，往往由于跟踪系

统在应用中植入代码的 bug 或疏忽导致应用出问题，这样才是无法满足对跟踪系统“无所不在的部署”

这个需求。面对当下想 Google 这样的快节奏的开发环境来说，尤其重要。

3.延展性：Google 至少在未来几年的服务和集群的规模，监控系统都应该能完全把控住。

一个额外的设计目标是为跟踪数据产生之后，进行分析的速度要快，理想情况是数据存入跟踪仓库

后一分钟内就能统计出来。尽管跟踪系统对一小时前的旧数据进行统计也是相当有价值的，但如果

跟踪系统能提供足够快的信息反馈，就可以对生产环境下的异常状况做出快速反应。

做到真正的应用级别的透明，这应该是当下面临的最挑战性的设计目标，我们把核心跟踪代码做的

很轻巧，然后把它植入到那些无所不在的公共组件种，比如线程调用、控制流以及 RPC 库。使用自

适应的采样率可以使跟踪系统变得可伸缩，并降低性能损耗，这些内容将在第 4.4 节中提及。结果展

示的相关系统也需要包含一些用来收集跟踪数据的代码，用来图形化的工具，以及用来分析大规模

跟踪数据的库和 API。虽然单独使用 Dapper 有时就足够让开发人员查明异常的来源，但是 Dapper

的初衷不是要取代所有其他监控的工具。我们发现，Dapper 的数据往往侧重性能方面的调查，所以

其他监控工具也有他们各自的用处。

1.1 文献的总结

分布式系统跟踪工具的设计空间已经被一些优秀文章探索过了，其中的 Pinpoint[9]、Magpie[3]和 X-

Trace[12]和 Dapper 最为相近。这些系统在其发展过程的早起倾向于写入研究报告中，即便他们还

没来得及清楚地评估系统当中一些设计的重要性。相比之下，由于 Dapper 已经在大规模生产环境

中摸爬滚打了多年，经过这么多生产环境的验证之后，我们认为这篇论文最适合重点阐述在部署

Dapper 的过程中我们有那些收获，我们的设计思想是如何决定的，以及以什么样的方式实现它才会

最有用。Dappe 作为一个平台，承载基于 Dapper 开发的性能分析工具，以及 Dapper 自身的监测工

具，它的价值在于我们可以在回顾评估中找出一些意想不到的结果。

虽然 Dapper 在许多高阶的设计思想上吸取了 Pinpoint 和 Magpie 的研究成果，但在分布式跟踪这个

领域中，Dapper 的实现包含了许多新的贡献。例如，我们想实现低损耗的话，特别是在高度优化的

而且趋于极端延迟敏感的 Web 服务中，采样率是很必要的。或许更令人惊讶的是，我们发现即便是

1/1000 的采样率，对于跟踪数据的通用使用层面上，也可以提供足够多的信息。

我们的系统的另一个重要的特征，就是我们能实现的应用级的透明。我们的组件对应用的侵入被先

限制在足够低的水平上，即使想 Google 网页搜索这么大规模的分布式系统，也可以直接进行跟踪

而无需加入额外的标注(Annotation)。虽然由于我们的部署系统有幸是一定程度的同质化的，所以更

容易做到对应用层的透明这点，但是我们证明了这是实现这种程度的透明性的充分条件。

2. Dapper 的分布式跟踪

图 1：这个路径由用户的 X 请求发起，穿过一个简单的服务系统。用字母标识的节点代表分布式系

统中的不同处理过程。

分布式服务的跟踪系统需要记录在一次特定的请求后系统中完成的所有工作的信息。举个例子，图

1 展现的是一个和 5 台服务器相关的一个服务，包括：前端（A），两个中间层（B 和 C），以及两个

后端（D 和 E）。当一个用户（这个用例的发起人）发起一个请求时，首先到达前端，然后发送两个

RPC 到服务器 B 和 C。B 会马上做出反应，但是 C 需要和后端的 D 和 E 交互之后再返还给 A，由 A

来响应最初的请求。对于这样一个请求，简单实用的分布式跟踪的实现，就是为服务器上每一次你

发送和接收动作来收集跟踪标识符(message identifiers)和时间戳(timestamped events)。

为了将所有记录条目与一个给定的发起者（例如，图 1 中的 RequestX）关联上并记录所有信息，现

在有两种解决方案，黑盒(black-box)和基于标注(annotation-based)的监控方案。黑盒方案[1，15，2]

假定需要跟踪的除了上述信息之外没有额外的信息，这样使用统计回归技术来推断两者之间的关系。

基于标注的方案[3，12，9，16]依赖于应用程序或中间件明确地标记一个全局 ID，从而连接每一条记

录和发起者的请求。虽然黑盒方案比标注方案更轻便，他们需要更多的数据，以获得足够的精度，

因为他们依赖于统计推论。基于标注的方案最主要的缺点是，很明显，需要代码植入。在我们的生

产环境中，因为所有的应用程序都使用相同的线程模型，控制流和 RPC 系统，我们发现，可以把代

码植入限制在一个很小的通用组件库中，从而实现了监测系统的应用对开发人员是有效地透明。

我们倾向于认为，Dapper 的跟踪架构像是内嵌在 RPC 调用的树形结构。然而，我们的核心数据模

型不只局限于我们的特定的 RPC 框架，我们还能跟踪其他行为，例如 Gmail 的 SMTP 会话，外界的

HTTP 请求，和外部对 SQL 服务器的查询等。从形式上看，我们的 Dapper 跟踪模型使用的树形结构，

Span 以及 Annotation。

2.1 跟踪树和 span

在 Dapper 跟踪树结构中，树节点是整个架构的基本单元，而每一个节点又是对 span 的引用。节点

之间的连线表示的 span 和它的父 span 直接的关系。虽然 span 在日志文件中只是简单的代表 span

的开始和结束时间，他们在整个树形结构中却是相对独立的，任何 RPC 相关的时间数据、零个或多

个特定应用程序的 Annotation 的相关内容会在 2.3 节中讨论。

剩余15页未读，继续阅读

评论收藏

内容反馈

W542525174

2017-03-26

资源很好，谢谢分享

Dapper，大规模分布式系统的跟踪系统

评论2

最新资源

Dapper，大规模分布式系统的跟踪系统

评论2

最新资源

相关推荐

Java天眼大型分布式跟踪系统 附带源码

Dapper，大规模分布式系统的跟踪系统 by bigbully1

目前分布式链路追踪系统基本都是根据谷歌的《Dapper 大规模分布式系统的跟踪系统》这篇论文发展而来

dapper分布式跟踪系统中文1

Dapper分布式跟踪系统_Zh.pdf

dapper分布式跟踪系统原文

Zipkin是一个分布式跟踪系统

使用分布式的追踪和APM系统架构.pdf

分布式实时监控系统

DistributedTracingSystem:分布式系统的跟踪系统|开源APM（应用程序性能管理）

美团的Mtrace分布式会话跟踪系统架构设计与实践

pinpoint分布式系统性能监控工具详解(2).docx

Google Dapper翻译.docx

Dapper, a Large-Scale Distributed Systems Tracing Infrastructure

google的dapper-2010-1论文

Pinpoint1.8.0安装.docx

基于分布式跟踪的业务调用链监控技术在湖南电信的探索和应用.pdf

百度地图开发java源码-alpha-dapper-translation-zh:GoogleDapper的中文翻译

Dapper_dapper_google_

分布式链路追踪

pinpoint安装指南

Hydra架构介绍1

完结10章高性能GO企业级APM监控系统实战

精品云计算第三版课程配套PPT课件含习题（47页）第2章 Google云计算第三版原理与应用（二）.pptx

精品云计算第三版课程配套PPT课件含习题（49页）第2章 Google云计算第三版原理与应用（三）.pptx

fiddler中文免安装版

KepOPC工业互联网数据交换平台V2.4.9

Java天眼大型分布式跟踪系统附带源码