![](https://csdnimg.cn/release/download_crawler_static/40466544/bg2.jpg)
实时数仓是一个很简约让人产生混淆的概念。实时数仓本身好像和把 PPT 黑
色的背景变得更白一样,从传统的阅历来讲,我们认为数仓有一个很重要的功
能,即能够记录历史。通常,数仓都是期望从业务上线的第一天开头有数据,
然后一直记录到现在。
但实时处理技术,又是强调当前处理形态的一门技术,所以我们认为这两个相
对对立的方案堆叠在一起的时候,它注定不是用来处理一个比较广泛问题的一
种方案。于是,我们把实时数仓建设的目的定位为处理由于传统数据仓库数据
时效性低处理不了的问题。
由于这个特点,我们给定了两个准绳:
� 传统数仓能处理的问题,实时数仓就不处理了。比如上个月的一些历史
的统计,这些数据是不会用实时数仓来建设的。
� 问题本身就不太适合用数仓来处理,也不用实时数仓处理。比如业务性
很强的需求,或者是对时效性要求特殊高的需求。这些需求我们也不建
议通过实时数仓这种方式来进行处理。
当然为了让我们整个系统看起来像是一个数仓,我们还是给本人提了一些要求
的。这个要求其实跟我们建立离线数仓的要求是一样的,首先实时的数仓是需
要面对主题的,然后具有集成性,并且保证相对稳定。
离线数仓和实时数仓的区分在于离线数据仓库是一个保存历史累积的数
据,而我们在建设实时数仓的时候,我们只保留上一次批处理到当前
的数据。这个说法格外的拗口,但是实际上操作起来还是蛮轻松的。
通常来讲处理方案是保留或许三天的数据,由于保留三天的数据的话,可以稳
定地保证两天完整的数据,这样就能保证,在批处理流程还没有处理完昨天的
数据的这段间隙,照旧能够供应一个完整的数据服务。