阿里云云原生数据湖体系全解读.zip资源-CSDN文库

共1个文件

pdf：1个

版权申诉

阿里云

对象存储OSS

人工智能

5星 · 超过95%的资源 127 浏览量 2021-04-29 15:26:29 上传评论收藏 2.61MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

阿里云云原生数据湖体系全解读.zip （1个子文件）

阿里云云原生数据湖体系全解读.pdf 3.29MB

加入数据湖钉群阿里云开发者“藏经阁”

进行更多技术交流海量免费电子书下载

阿里云重磅发布云原生数据湖体系 4

数据湖存储 OSS 9

基于 OSS 的 EB 级数据湖 9

数据湖加速 13

基于 JindoFS+OSS 构建高效数据湖 13

JindoFS 缓存加速数据湖上的机器学习训练 20

JindoTable 数据湖优化与查询加速 26

JindoDistCp 数据湖离线数据迁移最佳实践 29

数据湖构建（DLF） 37

数据湖元数据服务的实现和挑战 37

多引擎集成挖掘湖上数据价值 40

多数据源一站式入湖 44

数据湖构建服务搭配 Delta Lake 玩转 CDC 实时入湖 50

云原生计算引擎 56

云原生计算引擎挑战与解决方案 56

Serverless Spark 的弹性利器 - EMR Shuffle Service 64

数据湖治理 70

数据湖开发治理平台 DataWorks 70

阿里云重磅发布云原生数据湖体系 < 4

阿里云重磅发布云原生数据湖体系

作者：无谓、铁杰、周皓、亦龙、扬清

“数据湖”正在被越来越多人提起，尽管定义并不统一，但企业们都已纷纷下水实践，

无论是 AWS 还是阿里云、华为。

我们认为：数据湖是大数据和 AI 时代融合存储和计算的全新体系。

为什么这么说？还要从它的发展说起。

数据量爆发式增长的今天，数字化转型成为 IT 行业的热点，数据需要更深度的价值挖

掘，因此需要确保数据中保留的原始信息不丢失，应对未来不断变化的需求。

当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求，于是业界也不断

地产生新的计算引擎，以便应对大数据时代的到来。

企业开始纷纷自建开源 Hadoop 数据湖架构，原始数据统一存放在 HDFS 系统上，引

擎以 Hadoop 和 Spark 开源生态为主，存储和计算一体。

缺点是需要企业自己运维和管理整套集群，成本高且集群稳定性较差。

在这种情况下，云上托管 Hadoop 数据湖架构（即 EMR 开源数据湖）应运而生。底

层物理服务器和开源软件版本由云厂商提供和管理，数据仍统一存放在 HDFS 系统上，引

擎以 Hadoop 和 Spark 开源生态为主。

这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性，使企业的整体运维成本有

所下降，但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理，即应用层的运

维工作。

因为存储和计算耦合在一起，稳定性不是最优，两种资源无法独立扩展，使用成本也不

是最优。

5 > 阿里云重磅发布云原生数据湖体系

同时，受到开源软件本身能力的限制，传统数据湖技术无法满足企业用户在数据规模、

存储成本、查询性能以及弹性计算架构升级等方面的需求，也无法达到数据湖架构的理想目

标。

企业在这个时期需要更低廉的数据存储成本、更精细的数据资产管理、可共享的数据湖

元数据、更实时的数据更新频率以及更强大的数据接入工具。

云原生时代到来，我们可以有效利用公有云的基础设施，数据湖平台也有了更多的技术

选择。比如云上纯托管的存储系统逐步取代 HDFS，成为数据湖的存储基础设施，并且引

擎丰富度也不断扩展。

除了 Hadoop 和 Spark 的生态引擎之外，各云厂商还发展出面向数据湖的引擎产品。

如分析类的数据湖引擎有 AWS Athena 和华为 DLI，AI 类的有 AWS Sagemaker。

这个架构仍然保持了一个存储和多个引擎的特性，所以统一元数据服务至关重要。

基于此，阿里云正式发布了云原生数据湖体系，由对象存储 OSS、数据湖构建 Data

Lake Formation、E-MapReduce 产品强强组合，提供存储与计算分离架构下，湖存储、

湖加速、湖管理、湖计算的企业级数据湖解决方案。

 数据湖存储用云上的对象存储 OSS 加上 JindoFS 取代 HDFS，提升数据规模、

降低存储成本、实现计算和存储分离架构；

 数据湖构建（DLF）服务提供统一元数据和统一的权限管理，支持多套引擎接入；

 EMR 上 Spark 等计算引擎的云原生化，可以更好的利用弹性计算资源；

 云上的数据开发治理平台 DataWorks 解决了数据湖元数据治理、数据集成、数据

开发等问题。

数据是最好的佐证：阿里云云原生数据湖体系可支持 EB 级别的数据湖，存储超过 10

万 Database、1 亿 Table 以及 10 亿级别的 Partition，每天支持超过 30 亿次的元数据服

务请求，支持超过 10 个开源计算引擎以及 MaxCompute 和 Hologres 等云原生数仓引擎。

评论收藏

内容反馈

版权申诉

zoujhui

2021-06-27

用户下载后在一定时间内未进行评价，系统默认好评。
weixin_38703126

2021-11-19

用户下载后在一定时间内未进行评价，系统默认好评。
weixin_35607110

2022-05-12

用户下载后在一定时间内未进行评价，系统默认好评。
steven_li2025

2022-06-05

用户下载后在一定时间内未进行评价，系统默认好评。
m0_59762438

2022-04-25

用户下载后在一定时间内未进行评价，系统默认好评。

前往

页

笑看浮华2000

粉丝: 20
资源: 218

阿里云云原生数据湖体系全解读.zip

阿里云原生技术+云原生架构+云原生实践等资料合集.zip

【重磅】史上最全的阿里云分享的云原生技术学习资料合集（120份）.zip

2020阿里云数据湖高峰论坛发布资料合集.zip

阿里云原生数据湖体系全解读.pdf

《阿里云云原生数据湖体系全解读》首次揭秘如何构建阿里云云原生数据湖体系.pdf

阿里云云原生数据湖体系.pdf

数据架构设计与实践-基于阿里云云原生的异地多活解决方案.zip

数据架构设计与实践-基于阿里云云原生的异地多活解决方案.pdf

2021阿里云云原生 Serverless 技术实践营演讲PPT汇总.zip

2022年中国云原生数据湖应用洞察白皮书.docx

1-7+腾讯云原生数据湖计算技术详解.pdf

阿里云边缘云原生应用实践.pdf

数据湖技术及实践与案例资料汇总合集47篇.zip

【推荐】数据湖解决方案和相关资料集合.zip

阿里云云原生架构白皮书.pdf

阿里云原生实践15讲-178页.pdf

阿里云-云原生架构白皮书.pdf

阿里巴巴云原生实践.zip

218-云原生架构与GitOps实战完结.zip

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

行人跌倒数据集（VOC格式）

最新资源