没有合适的资源？快使用搜索试试~ 我知道了~

文库首页物联网智慧城市湖仓一体：数据湖vs数据仓库之争？.doc

湖仓一体：数据湖vs数据仓库之争？.doc

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

0 下载量 78 浏览量 2022-10-30 20:59:03 上传评论 1 收藏 2.91MB DOC 举报

温馨提示

试读

30页

湖仓一体：数据湖vs数据仓库之争？.doc

资源推荐

资源详情

资源评论

湖仓一体：数据湖 vs 数据仓库之争？

本文介绍数据仓库和数据湖的区别是什么，作者对其来龙去脉进行深入

剖析，来阐述两者融合演进的新方向——湖仓一体。

导读：随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对

比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂

商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和

数据湖联动的特性。

但是数据仓库和数据湖的区别到底是什么，是技术路线之争？是数据管理方式之

争？二者是水火不容还是其实可以和谐共存，甚至互为补充？

本文作者来自阿里巴巴计算平台部门，深度参与阿里巴巴大数据/数据中

台领域建设，将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析，来阐述两

者融合演进的新方向——湖仓一体，并就基于阿里云 MaxCompute/EMR DataLake 的湖

仓一体方案做一介绍。

01、大数据领域发展 20 年的变与不变

1. 概述

大数据领域从本世纪初发展到现在，已经历 20 年。从宏观层面观察其中

的发展规律，可以高度概括成如下五个方面：

i. 数据保持高速增长- 从 5V 核心要素看，大数据领域保持高速增长。阿里

巴巴经济体，作为一个重度使用并着力发展大数据领域的公司，过去 5

年数据规模保持高速增长（年化 60%-80%），增速在可见的未来继续保

持。对于新兴企业，大数据领域增长超过年 200%。

ii. 大数据作为新的生产要素，得到广泛认可- 大数据领域价值定位的迁移，

从“探索”到“普惠”，成为各个企业/政府的核心部门，并承担关键任务。还

是以阿里巴巴为例，30%的员工直接提交大数据作业。随大数据普惠进

入生产环境，可靠性、安全性、管控能力、易用性等企业级产品力增强。

iii. 数据管理能力成为新的关注点- 数仓（中台）能力流行起来，如何用好数

据成为企业的核心竞争力。

iv. 引擎技术进入收敛期 - 随着 Spark（通用计算）、Flink（流计算）、

Hbase（KV）、Presto（交互分析）、ElasticSearch（搜索）、Kafka

（数据总线）自从 2010-2015 年逐步占领开源生态，最近 5 年新引擎开

源越来越少，但各引擎技术开始向纵深发展（更好的性能、生产级别的稳

定性等）。

v. 平台技术演进出两个趋势，数据湖 VS 数据仓库- 两者均关注数据存储和

管理（平台技术），但方向不同。

▲图 1 阿里巴巴双十一单日处理数据量增长

2. 从大数据技术发展看湖和仓

首先，数据仓库的概念出现的要比数据湖早的多，可以追溯到数据库为王

的上世纪 90 年代。因此，我们有必要从历史的脉络来梳理这些名词出现

的大概时间、来由以及更重要的背后原因。大体上，计算机科学领域的数

据处理技术的发展，主要分为四个阶段：

� 阶段一：数据库时代

数据库最早诞生于 20 世纪的 60 年代，今天人们所熟知的关系型数据库

则出现在 20 世纪 70 年代，并在后续的 30 年左右时间里大放异彩，诞

生了很多优秀的关系型数据库，如 Oracle、SQL Server、MySQL、

PostgresSQL 等，成为当时主流计算机系统不可或缺的组成部分。

到 20 世纪 90 年代，数据仓库的概念诞生。此时的数据仓库概念更多表

达的是如何管理企业中多个数据库实例的方法论，但受限于单机数据库的

处理能力以及多机数据库（分库分表）长期以来的高昂价格，此时的数据

仓库距离普通企业和用户都还很遥远。人们甚至还在争论数据仓库（统一

集中管理）和数据集市（按部门、领域的集中管理）哪个更具可行性。

� 阶段二：大数据技术的「探索期」

时间进入到 2000 年附近，随着互联网的爆发，动辄几十亿、上百亿的页

面以及海量的用户点击行为，开启了全球的数据量急剧增加的新时代。传

统的数据库方案再也无力以可接受的成本提供计算力，巨大的数据处理需

求开始寻找突破口，大数据时代开始萌芽。

2003、2004、2006 年 Google 先后 3 篇经典论文（GFS、

MapReduce、BigTable）奠基了这个大数据时代的基本技术框架，即分

布式存储、分布式调度以及分布式计算模型。

随后，几乎是在同一时期，诞生了包括 Google，微软 Cosmos 以及开

源 Hadoop 为代表的优秀分布式技术体系，当然，这其中也包括阿里巴

巴的飞天系统。此时人们兴奋于追求数据的处理规模，即『大』数据，没

有闲暇争论是数据仓库还是数据湖。

� 阶段三：大数据技术的「发展期」

来到 21 世纪的第二个 10 年，随着越来越多的资源投入到大数据计算领

域，大数据技术进入一个蓬勃发展的阶段，整体开始从能用转向好用。

代替昂贵的手写 MapReduce 作业的，则是如雨后春笋般出现的各种以

SQL 为表达的计算引擎。这些计算引擎针对不同的场景进行针对性优化

，但都采用门槛极低的 SQL 语言，极大降低了大数据技术的使用成本，

数据库时代人们梦想的大一统的数据仓库终于成为现实，各种数据库时代

的方法论开始抬头。

这个时期技术路线开始出现细分。云厂商主推的如 AWS Redshift、

Google BigQuery、Snowflake，包括 MaxCompute 这样的集成系统

称为大数据时代的数据仓库。而以开源 Hadoop 体系为代表的的开放式

HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎（Hive

、Presto、Spark、Flink 等）协同工作的模式，则形成了数据湖的雏形

。

o 阶段四：大数据技术「普及期」

当前，大数据技术早已不是什么火箭科技，而已经渗透到各行各业，大数

据的普及期已经到来。市场对大数据产品的要求，除了规模、性能、简单

易用，提出了成本、安全、稳定性等更加全面的企业级生产的要求。

o 开源 Hadoop 线，引擎、元数据、存储等基础部件的迭代更替进入相对

稳态，大众对开源大数据技术的认知达到空前的水平。一方面，开放架构

的便利带来了不错的市场份额，另一方面开放架构的松散则使开源方案在

企业级能力构建上遇到瓶颈，尤其是数据安全、身份权限强管控、数据治

理等方面，协同效率较差（如 Ranger 作为权限管控组件、Atlas 作为数

据治理组件，跟今天的主流引擎竟然还无法做到全覆盖）。同时引擎自身

的发展也对已有的开放架构提出了更多挑战，Delta Lake、Hudi 这样自

闭环设计的出现使得一套存储、一套元数据、多种引擎协作的基础出现了

某种程度的裂痕。

o 真正将数据湖概念推而广之的是 AWS。AWS 构筑了一套以 S3 为中心

化存储、Glue 为元数据服务，E-MapReduce、Athena 为引擎的开放协

作式的产品解决方案。它的开放性和和开源体系类似，并在 2019 年推出

Lake Formation 解决产品间的安全授信问题。虽然这套架构在企业级能

力上和相对成熟的云数据仓库产品相去甚远，但对于开源技术体系的用户

剩余29页未读，继续阅读

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

智慧化智能化数字化方案

粉丝: 479
资源: 1万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

湖仓一体：数据湖vs数据仓库之争？.doc

数据湖数据仓库湖仓一体建设解决方案技术资料合集（15份）.zip

数据湖Hudi.doc

湖仓一体：数据湖vs数据仓库之争？.docx

湖仓一体：数据湖vs数据仓库之争？ (2).docx

湖仓一体：数据湖vs数据仓库之争？.pdf

数据湖VS数据仓库之争？阿里提出大数据架构新概念：湖仓一体.pdf

数据湖与数据仓库的新未来：阿里提出湖仓一体架构.docx

SqlServer实验二：数据查询和Transact-SQL基础.doc

数据字典.doc数据字典.doc

数据结构基础知识.doc

后台产品方法论：如何搭建数据看板？ .doc

数据库、数据湖、数据仓库、湖仓一体、智能湖仓，分别都是什么鬼？.pdf

数据仓库建设方案.doc.pdf

STEP7怎样使用多重背景数据块？.doc

软件项目实施管理办法文档.zip

不法分子贩卖数据什么罪？.doc

如何看待数据分析无用论？.doc

内容型产品出海：怎样通过数据运营-驱动业务发展？.doc

【AAA】网络数据使用需求合规性审核制度.doc.docx

《数据结构》教学大纲(1).doc.pdf

小型电子商务网站数据管理数据库设计报告.doc.docx

高并发下如何避免产生重复数据？.doc

中国经济数据是怎么统计上来的？.doc

如何在SPSS中做数据正态转化？.doc

数据要求说明书（GB856T——88）.doc

Gui GUider v1.7.2

IEC104规约模拟器

免费3D/GIS/BIM模型格式转换器，导出格式包括：gltf/glb、标准3Dtiles、fbx、obj

Delphi EX，Delphi11，SPComm，串口编程，安装教程

最新资源