数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持
(Decision Support )。其实数据仓库本身并不 “生产 ”任何数据,同时自身
也不需要 “消费 ”任何的数据,数据来源于外部,并且开放给外部应用,这也
是为什么叫 “仓库 ”,而不叫 “工厂 ”的原因。因此数据仓库的基本架构主要包
含的是数据流入流出的过程,可以分为三层 —— 源数据 、数据仓库 、数据应
用:
从图中可以看出数据仓库的数据来源于不同的源数据, 并提供多样的数
据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中
间集成化数据管理的一个平台。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可
以认为是 ETL(抽取 Extra, 转化 Transfer, 装载 Load )的过程, ETL 是数
据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据
的新陈代谢, 而数据仓库日常的管理和维护工作的大部分精力就是保持 ETL
的正常和稳定。
下面主要简单介绍下数据仓库架构中的各个模块 ,当然这里所介绍的数
据仓库主要是指网站数据仓库。
数据仓库的数据来源
其实之前的一篇文章已经介绍过数据仓库各种源数据的类型 —— 数据
仓库的源数据类型 ,所以这里不再详细介绍。
对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站
分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的
数据及各种用户操作的结果,对于分析网站 Outcome 这类数据更加精准;
其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。
评论0
最新资源