没有合适的资源?快使用搜索试试~ 我知道了~
数据湖:设计更好的架构、存储、安全和数据治理.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 101 浏览量
2022-06-18
11:44:38
上传
评论
收藏 1.56MB PDF 举报
温馨提示
试读
14页
。。。
资源推荐
资源详情
资源评论
数据湖:设计更好的架构、存储、安全和数据治理
前言
对任何业务来说,数据驱动的结果、预告和对趋势的预测都
是必不可少的。 今天,在我们所做的每件事中,都能看到某种分
析的逻辑在背后。从点击网站 (点击流分析 )、在线购买 (客户行为 )、
遗传学、 CRM、公用事业、医疗保健,甚至选举,我们都可以看
到分析的存在。 分析的能力不再让你获得优势,它已经变成了你
保持业务不被淘汰的必要条件。 它倒逼组织建立数据湖或升级现
有的数据仓库。
这就引出了一个非常有趣但也令人困惑的问题:我应该用数据仓
库还是数据湖?答案其实很简单。一般情况下,你应该同时拥有数据
仓库和数据湖,更准确地说,数据仓库位于数据湖中。
数据仓库 vs 数据湖
数据仓库是为分析来自不同系统或业务线的结构化数据而优化
的数据库。为了支持更快的 SQL 驱动操作报告和分析,模式和数据
结构都已经预先定义了。数据仓库中的数据已经被清理、丰富和转换
为“单一的真理来源”。
然而,数据湖存储来自商业应用程序、移动应用程序、物联网设
备和社交媒体的结构化和非结构化数据。模式在数据刚捕获阶段是
不需要提前定义的。 这意味着你可以存储数据,而不需要仔细设计,
也不需要知道要获得什么样的见解。它支持大数据分析、搜索分析、
机器学习、实时分析、日志分析和点击流分析等。
理论上,数据湖听起来像是所有问题的一站式解决方案,但并不
令人惊讶的是,很多数据湖都失败了。数据湖解决了两个主要问题 :
“消除数据竖井”和“存储异类源”。然而,这也带来了许多挑战,需要
正确的体系结构、存储、数据治理和安全模型来驱动业务结果。
数据湖的特性
对数据湖的预期
数据湖应该能够交付:
1.
不同的数据源: 数据湖应该支持从任何数据源高效高速
收集数据,来自不同来源的数据有助于执行完整和深入的分析;
2.
数据可访问性: 它应该允许组织 /部门范围内的数据以
一种安全的授权方式从多个来源访问数据,数据专业人员和企业
不受 IT 部门的官僚主义影响;
3.
及时性:数据很重要,但只有在及时收到数据的情况下
才重要。所有用户都有一个有效的时间窗口,在此期间,正确的
信息可以影响他们的决策;
4.
自助式服务: 对于组织范围的数据,数据湖应该允许用
户使用所需的工具集构建他们的报告和模型。
我们接下来要讨论怎样设计更好的数据湖,下图提到的微服务架
构、安全、治理、和存储是构建有效的、数据驱动的、未来感十足的
数据湖的四大支柱。
数据湖的四大支柱
架构
剩余13页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6520
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功