加入数据湖钉群 阿里云开发者“藏经阁”
进行更多技术交流 海量免费电子书下载
目录
阿里云重磅发布云原生数据湖体系 4
数据湖存储 OSS 9
基于 OSS 的 EB 级数据湖 9
数据湖加速 13
基于 JindoFS+OSS 构建高效数据湖 13
JindoFS 缓存加速数据湖上的机器学习训练 20
JindoTable 数据湖优化与查询加速 26
JindoDistCp 数据湖离线数据迁移最佳实践 29
数据湖构建(DLF) 37
数据湖元数据服务的实现和挑战 37
多引擎集成挖掘湖上数据价值 40
多数据源一站式入湖 44
数据湖构建服务搭配 Delta Lake 玩转 CDC 实时入湖 50
云原生计算引擎 56
云原生计算引擎挑战与解决方案 56
Serverless Spark 的弹性利器 - EMR Shuffle Service 64
数据湖治理 70
数据湖开发治理平台 DataWorks 70
阿里云重磅发布云原生数据湖体系 < 4
阿里云重磅发布云原生数据湖体系
作者:无谓、铁杰、周皓、亦龙、扬清
“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践,
无论是 AWS 还是阿里云、华为。
我们认为:数据湖是大数据和 AI 时代融合存储和计算的全新体系。
为什么这么说?还要从它的发展说起。
数据量爆发式增长的今天,数字化转型成为 IT 行业的热点,数据需要更深度的价值挖
掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。
当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断
地产生新的计算引擎,以便应对大数据时代的到来。
企业开始纷纷自建开源 Hadoop 数据湖架构,原始数据统一存放在 HDFS 系统上,引
擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。
缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。
在这种情况下,云上托管 Hadoop 数据湖架构(即 EMR 开源数据湖)应运而生。底
层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在 HDFS 系统上,引
擎以 Hadoop 和 Spark 开源生态为主。
这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有
所下降,但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理,即应用层的运
维工作。
因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不
是最优。
5 > 阿里云重磅发布云原生数据湖体系
同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、
存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目
标。
企业在这个时期需要更低廉的数据存储成本、更精细的数据资产管理、可共享的数据湖
元数据、更实时的数据更新频率以及更强大的数据接入工具。
云原生时代到来,我们可以有效利用公有云的基础设施,数据湖平台也有了更多的技术
选择。比如云上纯托管的存储系统逐步取代 HDFS,成为数据湖的存储基础设施,并且引
擎丰富度也不断扩展。
除了 Hadoop 和 Spark 的生态引擎之外,各云厂商还发展出面向数据湖的引擎产品。
如分析类的数据湖引擎有 AWS Athena 和华为 DLI,AI 类的有 AWS Sagemaker。
这个架构仍然保持了一个存储和多个引擎的特性,所以统一元数据服务至关重要。
基于此,阿里云正式发布了云原生数据湖体系,由对象存储 OSS、数据湖构建 Data
Lake Formation、E-MapReduce 产品强强组合,提供存储与计算分离架构下,湖存储、
湖加速、湖管理、湖计算的企业级数据湖解决方案。
数据湖存储用云上的对象存储 OSS 加上 JindoFS 取代 HDFS,提升数据规模、
降低存储成本、实现计算和存储分离架构;
数据湖构建(DLF)服务提供统一元数据和统一的权限管理,支持多套引擎接入;
EMR 上 Spark 等计算引擎的云原生化,可以更好的利用弹性计算资源;
云上的数据开发治理平台 DataWorks 解决了数据湖元数据治理、数据集成、数据
开发等问题。
数据是最好的佐证:阿里云云原生数据湖体系可支持 EB 级别的数据湖,存储超过 10
万 Database、1 亿 Table 以及 10 亿级别的 Partition,每天支持超过 30 亿次的元数据服
务请求,支持超过 10 个开源计算引擎以及 MaxCompute 和 Hologres 等云原生数仓引擎。
- 1
- 2
前往页