大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
目录
目录
背 景:大数据湖的发展背景与建设理念
背 景:大数据湖的发展背景与建设理念
1
1
生态圈:
生态圈:
探索新兴业务入湖建设模式
探索新兴业务入湖建设模式
3
3
共 享:
共 享:
大数据湖统一访问共享规划
大数据湖统一访问共享规划
4
4
运 营:
运 营:
大数据湖一体化运营管理建设
大数据湖一体化运营管理建设
5
5
体 系:
体 系:
大数据湖体系规划与建设思路
大数据湖体系规划与建设思路
2
2
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
数据架构与承载体系的演变过程
完整性、一致性、交互稳定性,
完整性、一致性、交互稳定性,
并发性,异常可恢复性
并发性,异常可恢复性
数据库时代
数据库时代
关系型数据库解决了信息时代的数据资源存
关系型数据库解决了信息时代的数据资源存
储和管理,实现了电子化的文件柜
储和管理,实现了电子化的文件柜
采用数据模型表示数据结构,冗余小
采用数据模型表示数据结构,冗余小
面向事务管理,具有
面向事务管理,具有
ACID
ACID
特性
特性
数据统一管理和控制,易维护和扩充
数据统一管理和控制,易维护和扩充
程序与数据独立,具有良好用户接口
程序与数据独立,具有良好用户接口
1
1
数据仓库时代
数据仓库时代
DW
DW
研究和解决了从数据库中获取信息的问
研究和解决了从数据库中获取信息的问
题,通过
题,通过
OLAP
OLAP
、数据挖掘等帮助企业
、数据挖掘等帮助企业
决策分析,构建商业智能(
决策分析,构建商业智能(
BI
BI
)
)
面向主题的,关注用户重点业务
面向主题的,关注用户重点业务
集成的,跨越历史、区域、系统
集成的,跨越历史、区域、系统
…
…
稳定的,具有只读性质,以查询为主
稳定的,具有只读性质,以查询为主
以时间序列存储,非规范化管理
以时间序列存储,非规范化管理
2
2
大数据平台时代
大数据平台时代
面对大数据
面对大数据
5V
5V
特点,采用分布式、并行化
特点,采用分布式、并行化
的存储和计算架构,提升数据处理能力
的存储和计算架构,提升数据处理能力
对象:
对象:
PB
PB
级,
级,
80%
80%
以上非结构化数
以上非结构化数
据
据
技术:分布式架构、云计算、虚拟化等
技术:分布式架构、云计算、虚拟化等
CAP
CAP
原理:
原理:
CAP
CAP
BASE
BASE
目标:线性扩展、弹性计算、实时响应、
目标:线性扩展、弹性计算、实时响应、
动态调节
动态调节
3
3
1970 ’s
1970 ’s
1990 ’s
1990 ’s
Bill Inmon
Bill Inmon
提出
提出
DW
DW
概念
概念
E.F.Codd
E.F.Codd
发明
发明
DBMS
DBMS
2000 ’s
2000 ’s
Google
Google
发布三篇论文
发布三篇论文
存储经济性、高性能、高扩展、
存储经济性、高性能、高扩展、
高并发、灵活模型适配性
高并发、灵活模型适配性
企业级跨域整合、业务扩展性、
企业级跨域整合、业务扩展性、
架构设计合理性、流程规范性
架构设计合理性、流程规范性
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放
更多企业数据将进入数据湖
更多企业数据将进入数据湖
,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。
,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。
随着大数据分析能力的不断提高,
随着大数据分析能力的不断提高,
人工智能的重要性被逐步提升
人工智能的重要性被逐步提升
。当今最先进的机器学习和人工智能系统正在超越传统的基于
。当今最先进的机器学习和人工智能系统正在超越传统的基于
规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。
规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。
数据
数据
服务
服务
数据
数据
应用
应用
数据
数据
分析
分析
数据
数据
治理
治理
数据
数据
平台
平台
•
以更加深度的数据开放,跨行业大数据关联。
•
以更多样的应用能力,构建针对性行业解决方案。
•
数据平台存储方式向数据湖模式转变,多数据汇聚。
•
支持结构化,半结构化和非结构化数据多数据入湖
•
。
•
入湖即治理,针对性对数据源系统输入数据制定入湖标准
•
数据驱动治理规范,以数据为核心实时制定治理规范。
•
从深度学习到机器学习,从机器学习到人工智能。
•
基于数据湖的大量的原始数据,深度训练,快速分析
•
智能应用,基于 AI 与机器学习分析,个性化服务提供。
•
应用快速构建,基于数据湖进行细粒度的收集、探索和分析
数据湖
数据湖
数据治理
数据治理
数据分析
数据分析
数据应用
数据应用
数据服务
数据服务
数据驱动规范,入湖标准制定
数据驱动规范,入湖标准制定
人工智能分析,直引湖中数据
人工智能分析,直引湖中数据
大数据发展趋势分析
大数据发展趋势分析
应用更加智能,构建更加快速
应用更加智能,构建更加快速
深度数据开放,针对方案制定
深度数据开放,针对方案制定
大数据湖总体规划及大数据湖一体化运营管理建设方案
大数据湖总体规划及大数据湖一体化运营管理建设方案
数据湖产生背景及概念提出
企业现在正处于大数据的“焦虑期”
企业现在正处于大数据的“焦虑期”
存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大
存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大
数据形态问题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用
数据形态问题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用
业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性
业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性
数据集市
数据集市
数据湖
数据湖
问
问
题
题
?
?
挑
挑
战
战
?
?
变
变
革
革
!
!
数据湖一词是
数据湖一词是
2011
2011
年由
年由
Pentaho
Pentaho
首席技术官詹姆斯
首席技术官詹姆斯
迪克森最初提出的,参照“数据集市”得
迪克森最初提出的,参照“数据集市”得
来。
来。
较小的数据存储库
较小的数据存储库
如同瓶装水,经过过滤包装
如同瓶装水,经过过滤包装
结构化后以供使用
结构化后以供使用
数据来源于不同地方
数据来源于不同地方
如同湖泊,存储更自然状态下
如同湖泊,存储更自然状态下
的大量的水
的大量的水
预先设定问题
预先设定问题
使用方式单一
使用方式单一
集中存储
集中存储
+
+
无限能力
无限能力
用户各取所需
用户各取所需
评论0