集成是与面向主题密切相关。我们上面的保险的例子中,建立一个保险公司的销
售数据仓库,不同的险种由不同的部门负责,他们有各自独立的销售数据库,此
时要想从公司层面整体分析销售数据,必须将各分散的数据源统一成一致的、无
歧义的数据格式后,再存储在数据仓库中,因此就需要解决各数据源的矛盾之处,
例如字段的同名异意、异名同意、字段数据类型不一致,长度不一致,计量单位
不一致等等。另外数据还需要进行综合和计算等处理。当完成了这些数据的整合
工作后,数据仓库就是集成的,这个过程就是数据仓库中最复杂、最关键的过程:
ETL。集成也就是把多个数据源的数据进行统一存储到数据仓库中。
非易失性指的是数据一旦进入数据仓库,数据就不应该再有改变,操作型系统中
的数据一般会频繁更新,而数据仓库中的数据一般不进行更新,当操作型系统的
改变的数据进入数据仓库后会产生新的记录,这样就保留了数据变化的历史轨迹,
因此,数据仓库中的数据基本是静态的,因为数据仓库的目的就是要根据曾经发
生的事件进行分析,如果数据是可修改的,那么历史数据分析就没有意义了。
为了发现业务变化的趋势、存在的问题以及新的机会,需要分析大量的历史数据。
数据仓库中包含各种粒度的历史数据,虽然数据仓库具有非易失性,但数据仓库
中的数据并不是不变的,是随着时间进行变化的,也就是说数据仓库中的数据反
映的是某一历史时间点的数据快照,当业务发生变化,挖掘出的模式会失去时效
性,并且任何一个存储介质都不可能无限扩展,数据也不可能只入不出永久驻留
在数据仓库中,因此,数据仓库中的数据也有自己的生命期限,过期会从数据仓
库中移除。移除的方式可以是将细节数据进行汇总后删除,将老的数据转储到大
容量介质后删除和直接物理删除等。数据仓库是联机分析处理( OLAP),与之对
应的是操作型系统是联机事务处理(OLTP),OLTP 反映的是当前时间点的数据情
评论0
最新资源