没有合适的资源?快使用搜索试试~ 我知道了~
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的数仓可以称为传统数仓,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线数仓架构可以兴起并延续至今,近几年随着Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数仓,特别是近两年,随着Flink声名鹊起,实时数仓更是名声在外并且还在不断快速发展。目前大多企业的数据体系都是围绕数仓的数据平台架构,特别是在着力建设实时数仓,或者在建设离线数仓与实时数仓相统一的数仓体系。本文我们精选了实时数仓建设的典型代表,包括美团点评、网易、知
资源推荐
资源详情
资源评论
实时数仓实时数仓|你想要的数仓分层设计与技术选型你想要的数仓分层设计与技术选型
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的数仓可以称为传统数仓,而后随着海量数据不断增
长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线数仓架构可以兴起并延续至今,近几年随着
Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数仓,特别是近两
年,随着Flink声名鹊起,实时数仓更是名声在外并且还在不断快速发展。
目前大多企业的数据体系都是围绕数仓的数据平台架构,特别是在着力建设实时数仓,或者在建设离线数仓与实时数仓相统一
的数仓体系。本文我们精选了实时数仓建设的典型代表,包括美团点评、网易、知乎、OPPO等几家的实时数仓架构,他们的
数仓实践肯定对我们有所借鉴或启迪。笔者这里特别推荐参考他们的分层设计,存储与计算引擎的选型。
本文举的四个代表案例:
1.美团点评基于 Flink 的实时数仓平台实践
2.网易基于Flink的严选实时数仓实践
3.知乎实时数仓实践及架构演进
4.OPPO 实时数仓揭秘及离线到实时的平滑迁移
美团点评基于Flink的实时数仓平台实践
实时计算平台架构
下图所示的是美团点评实时计算平台的架构。
最底层是收集层,这一层负责收集用户的实时数据,包括 Binlog、后端服务日志以及 IoT 数据,经过日志收集团队和 DB 收集
团队的处理,数据将会被收集到 Kafka 中。这些数据不只是参与实时计算,也会参与离线计算。
收集层之上是存储层,这一层除了使用 Kafka 做消息通道之外,还会基于 HDFS 做状态数据存储以及基于 HBase 做维度数据
的存储。
存储层之上是引擎层,包括 Storm 和 Flink。实时计算平台会在引擎层为用户提供一些框架的封装以及公共包和组件的支持。
在引擎层之上就是平台层了,平台层从数据、任务和资源三个视角去管理。
架构的最上层是应用层,包括了实时数仓、机器学习、数据同步以及事件驱动应用等。
从功能角度来看,美团点评的实时计算平台主要包括作业和资源管理两个方面的功能。其中,作业部分包括作业配置、作业发
布以及作业状态三个方面的功能。
在作业配置方面,则包括作业设置、运行时设置以及拓扑结构设置;
在作业发布方面,则包括版本管理、编译/发布/回滚等;
作业状态则包括运行时状态、自定义指标和报警以及命令/运行时日志等。
在资源管理方面,则为用户提供了多租户资源隔离以及资源交付和部署的能力。
传统数仓模型
为了更有效地组织和管理数据,数仓建设往往会进行数据分层,一般自下而上分为四层:ODS(操作数据层)、DWD(数据
明细层)、DWS(汇总层)和应用层。即时查询主要通过 Presto、Hive 和 Spark 实现。
实时数仓模型
实时数仓的分层方式一般也遵守传统数据仓库模型,也分为了 ODS 操作数据集、DWD 明细层和 DWS 汇总层以及应用层。
但实时数仓模型的处理的方式却和传统数仓有所差别,如明细层和汇总层的数据一般会放在 Kafka 上,维度数据一般考虑到
性能问题则会放在 HBase 或者 Tair 等 KV 存储上,即席查询则可以使用 Flink 完成。
准实时数仓模型
在以上两种数仓模型之外,我们发现业务方在实践过程中还有一种准实时数仓模型,其特点是不完全基于流去做,而是将明细
层数据导入到 OLAP 存储中,基于 OLAP 的计算能力去做汇总并进行进一步的加工。
剩余6页未读,继续阅读
资源评论
weixin_38660069
- 粉丝: 2
- 资源: 945
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 实用数据上市公司数字化转型双重差分准自然实验数据(2007-2022年).txt
- Jave Web实验报告二:开源中国静态复刻
- j avascipt 测试程序代码
- content_1732197590653.zip
- 模拟题最终版.docx
- Java Web实验报告一:通讯录
- XP-245废墨清零,懂的都懂 买了个打印机,清零好几次了,这个比较好用,也有简单的操作图,用起来不恶心 杀毒软件没报毒
- 不同温度下的光谱数据,仅截取550nm-700nm
- 不同温度下的光谱数据,仅截取550nm-700nm
- HengCe-18900-2024-2030全球与中国eMMC和UFS市场现状及未来发展趋势-样本.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功