滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
滴滴大数据实时监控系统服务于滴滴各个业务线,对关键业务指标的变化进行实时监控。研发、产品、运营人员可以据此及时了解业务现状,发现系统问题、调整业务决策。
演讲主要包括以下话题:
1. 实时计算的挑战及解决方案:
(1)可扩展性
(2)有状态的实时计算
(3)数据被重复处理
(4)高可用
(5)实时数据流与外部系统或服务关联计算
2. OLAP系统架构选型:KV store与column store 哪种存储更适合OLAP应用?
3. 简要介绍Kafka的特性,阐述为何Kafka是实时计算系统中理想的数据存储方案
4. 详细介绍Druid的架构设计及原理,阐述Druid作为OLAP解决方案的优点
5. 详细介绍Samza的架构设计及原理,阐述如何通过Samza解决实时计算中的各种挑战
6. 介绍Lambda architecture,阐述如何将离线计算和实时计算统一起来,通过离线计算来修正实时计算
- 1
- 2
前往页