没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据中台相关规范
前置条件
业务调研:摸清业务涵盖的领域和业务线,业务线细分的业务模块、业务模块具体流程,业务
流程、业务边界、专业数据
数据调研:调研全部数据目录信息,梳理数据流和业务过程的关联关系
一、架构设计
1. 数据平台架构
[该类型的内容暂不支持下载]
该架构的优点
• 它从结构化和非结构化数据中获得洞察力:Data LakeHouse 架构应该能够存储、转换
和集成结构
化和非结构化数据。它应该能够将它们融合在一起,并能够从数据中提取出有价值的见解。
• 它迎合了组织中不同的人物角色:数据是一道菜,对于不同的人物角色有着不同的口
味。Data
LakeHouse 应该能够满足这些角色的需求。Data LakeHouse 迎合了一系列的组织角色,并满
足他
们的洞察力需求。数据科学家应该有自己的游乐场来测试他们的假设。分析师应该能够使用他
们选
择的工具分析数据,业务用户应该能够准确和及时地获得他们的报表。它使数据分析民主化。
• 它促进了健壮的治理框架的采用:数据湖架构模式的主要挑战是缺乏强大的治理框架
。数据湖很容
易变成数据沼泽。相比之下,EDW 体系结构则受到太多治理而内容太少的阻碍。Data
LakeHouse
架构力求达到治理平衡。它寻求为正确的数据类型实现正确的治理,以及访问正确的涉众。
• 它利用了云计算:Data LakeHouse 的架构需要灵活和创新。该模式需要适应不断变化
的组织需
求,并减少数据能够洞察周转时间。为了实现这种敏捷性,必须采用云计算技术。云计算平台
提供
了所需的创新性。它提供了适当的技术堆栈,具有可伸缩性和灵活性,并满足现代数据分析平
台的
需求。
挑战
• 架构复杂性:考虑到 Data LakeHouse 模式合并了 EDW 和数据湖模式,不可避免地会
有其架构复杂
性。 复杂性以实现模式所需的多个组件的形式表现出来。架构模式是交换条件; 谨慎地权衡架
构复
杂性与潜在业务利益是至关重要的。 Data LakeHouse 架构需要小心地走这条路。
• 所需的整体数据治理:与数据湖范式相关的挑战不会随着 Data LakeHouse 范式神奇
地消失。 数据
湖面临的最大挑战是,它很容易变成数据沼泽。 随着 Data LakeHouse 的范围和复杂性的增
长,缺
乏整体治理框架无疑会使 Data LakeHouse 陷入困境。
• 平衡灵活性和纪律性:DataLakehouse 范式力求灵活,并以敏捷的方式适应不断变化
的业务需求。
它的经营理念是以纪律为核心,以灵活性为边缘。实现这一目标是一种谨慎的平衡行为,它明
确规
定了灵活性的限度和纪律的严格性。DataLakehouse 管理员在确保这种平衡方面发挥着至关
重要的
作用。
数据中台架构案例:
2. BI 开发数据流程图
[该类型的内容暂不支持下载]
注解:
1:BI 任务开发流程:上图序号 1、2、3、4 为 BI 任务开发流程,第一步将外部数据导入生产
数仓,第二步同步部分数据到测试数仓,同步数仓尽量有代表性,第三步进行 superset 与数
据连接验证并开发图表,第四步切换数据源让图表展示真实的数据。第一步中要求同步前先确
定要同步数据是否有敏感字段,如果有要做好脱敏或加密处理。
2:ETL1 是指从外部数据源(要求是结构数据)通过 ETL 同步数据到生产数仓。
当前选用的工具是 datax 和 streamsets,datax 用于做全量同步,streamsets 用于做增量
同步。目前同步的数据有两类,一类是业务数据库下 renova、nitrogen、dmas、nile 四个库
的数据,另一类是 fep 下的 task 和 project 表。当前全部采用全量同步。
此处的同步方式有两种全量同步和增量同步,增量同步又分两种,一种是根据增量字段
,例如自增主键或日期类型字段做查询增量数据同步,另一种是根据 cdc 日志进行增量数据
同步。如何选取同步方式如下图。
剩余21页未读,继续阅读
资源评论
王者无敌95
- 粉丝: 19
- 资源: 44
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功