没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
x x大数据湖项目建设方案
第 1 页 共 115 页
大数据湖项目
建
设
方
案
2022年08月
第 2 页 共 115 页
第 3 页 共 115 页
第 3 页 共 115 页
目 录
1. 项目综述....................................................................................................................................5
1.1. 项目背景............................................................................................................................5
1.2. 项目目标............................................................................................................................6
1.3. 项目建设路线....................................................................................................................7
2 需求分析....................................................................................................................................7
2.1功能需求..............................................................................................................................7
2.1.1 统一数据接入....................................................................................................9
2.1.2 数据迁移..........................................................................................................10
2.1.3 数据范围与ETL ..............................................................................................12
2.1.4 报表平台..........................................................................................................13
2.1.5 安全管理..........................................................................................................14
2.1.6 数据治理..........................................................................................................15
2.2非功能需求........................................................................................................................16
2.2.1运维保障需求..........................................................................................................16
2.2.2可用性需求..............................................................................................................16
2.2.3可靠性需求..............................................................................................................17
2.2.4性能需求..................................................................................................................17
2.3需求总结............................................................................................................................17
3 整体解决方案..........................................................................................................................18
3.1 数据湖整体方案......................................................................................................18
3.1.1硬件部署方式 .......................................................................................................18
3.1.2基于CDH的数据湖软件部署 .................................................................................19
3.1.3数据ETL及数据接口开发方案 .............................................................................22
3.1.4沙盒管理 ...............................................................................................................28
3.1.5多租户管理 ...........................................................................................................29
3.2报表平台整体方案.............................................................................................................30
3.2.1系统设计原则 .......................................................................................................30
3.2.2数据分析场景 .......................................................................................................31
3.2.3业务需求建议 .......................................................................................................34
第 4 页 共 115 页
3.2.4系统逻辑架构 .......................................................................................................48
3.2.5技术方案特点 .......................................................................................................49
3.2.6其它特性 ...............................................................................................................52
3.2.7 报表平台具体实施步骤: ...............................................................................53
3.3数据仓库整体方案............................................................................................................55
3.3.1数仓的定义 ...........................................................................................................55
3.3.2 数据仓库的特点 .................................................................................................56
3.3.2 数据仓库具体实施步骤 .....................................................................................58
3.4数据治理整体方案............................................................................................................63
3.4.1主数据管理实施 ...................................................................................................66
3.4.2元数据管理实施 ...................................................................................................66
4 企业版功能和特性................................................................................................................67
4.1 CDH核心套件 ........................................................................................................69
4.1.1 分布式文件系统HDFS ...................................................................................69
4.1.2 分布式数据库HBase.......................................................................................70
4.1.3 统一资源管理和调度框架YARN ..................................................................71
4.1.4 分布式批处理引擎MapReduce ......................................................................72
4.1.5 分布式内存计算框架Spark ............................................................................73
4.1.6 数据仓库组件Hive..........................................................................................77
4.1.7 安全管理组件 Sentry .....................................................................................77
4.1.8 隐私保护..........................................................................................................80
4.1.9 统一用户体验工具 HUE ...............................................................................80
4.1.10 元数据管理Metastore&HCatalog ...................................................................82
4.1.11 高性能数据分析MPP引擎 Impala ........................................................83
4.1.12 数据导入导出工作Sqoop .......................................................................85
4.1.13 消息处理总线Kafka........................................................................................87
4.2 Manager集群管理组件 ..........................................................................................87
4.3 Navigator数据管理组件.........................................................................................89
5 项目建设..................................................................................................................................90
5.1项目实施计划.....................................................................................................................90
5.1.1项目实施服务........................................................................................................91
5.1.2人员构成................................................................................................................92
剩余114页未读,继续阅读
资源评论
- QG01012023-10-13资源不错,很实用,内容全面,介绍详细,很好用,谢谢分享。
公众号:智慧方案文库
- 粉丝: 1983
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 1961ee27df03bd4595d28e24b00dde4e_744c805f7e4fb4d40fa3f695bfbab035_8(1).c
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- windows注册表编辑工具
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- 校园通行码预约管理系统20240522075502
- 车类型数据集6250张VOC+YOLO格式.zip
- The PyTorch implementation of STGCN.STGCN-main.zip
- 092300108.cpp
- 车类型数据集6000张VOC+YOLO格式.zip
- for daily read
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功