![](https://csdnimg.cn/release/download_crawler_static/86970780/bg1.jpg)
一、数据湖的定义
维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按
原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关
系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如
电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时
和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以
存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行
大数据处理、实时分析和机器学习等操作的统一数据管理平台。
二、数据中台的定义
关于数据中台,笔者查阅了很多资料,也没有找到对于它的确切和标准定义。事实上也是如
此,实际上,数据中台是一个具有“中国特色”的概念,在国外并没有太多人谈论数据中台。
通俗来讲,数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形
式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套
持续不断把数据变成资产并服务于业务的机制。
三、数据湖与数据中台的关系,数据湖和数据中台的区别
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存
储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的
事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的
优势和能力。