
的,因此是“数据湖”。
同时湖水天然会进行分层,满足不同的生态系统要求,这与企业建设统一数据中心,存放
管理数据的需求是一致的。热数据在上层方便流通应用,温数据、冷数据位于数据中心的不
同存储介质之中,达到数据存储容量与成本的平衡。
但随着数据湖在各类企业的应用,大家都觉得:嗯,这个数据有用,我要放进去;那个数
据也有用,我也要放进去;于是把所有的数据不假思索地扔进基于数据湖的相关技术或工具
中,没有规则不成方圆,当我们认为所有数据都有用时,那么所有的数据都是垃圾,数据湖
也变成了造成企业成本高企的数据沼泽。
三、数据湖有哪些优势
轻松地收集数据:数据湖与数据仓库的一大区别就是,Schema On Read,即在使用数据时
才需要 Schema 信息;而数据仓库是 Schema On Write,即在存储数据时就需要设计好 Schema。
这样,由于对数据写入没有限制,数据湖可以更容易的收集数据。
从数据中发掘更多价值:数据仓库和数据市场由于只使用数据中的部分属性,所以只能回
答一些事先定义好的问题;而数据湖存储所有最原始、最细节的数据,所以可以回答更多的
问题。并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用
AI、机器学习的技术,从数据中发掘更多的价值。
消除数据孤岛:数据湖中汇集了来自各个系统中的数据,这就消除了数据孤岛问题。
具有更好的扩展性和敏捷性:数据湖可以利用分布式文件系统来存储数据,因此具有很高
的扩展能力。开源技术的使用还降低了存储成本。数据湖的结构没那么严格,因此天生具有
更高的灵活性,从而提高了敏捷性。
四、数据湖应该具备哪些能力