数据仓库介绍
数据仓库是企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库是一个过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。
数据仓库的概念:
* 面向主题:数据仓库的主要特点是面向主题的,典型的主题领域包括客户、产品、交易、帐目等。
* 集成的:数据仓库将分布在企业内部各处的业务数据整合到一起,形成一个统一的数据仓库。
* 随时间的变化性:数据仓库中的时间期限要远远长于操作型系统中的时间期限,数据仓库中的数据是一系列某一时刻生成的复杂的快照。
* 不可修改的:数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新。
数据仓库的结构:
* 早期细节级:数据仓库的最底层,包含原始数据。
* 当前细节级:数据仓库的中间层,包含经过处理和分析的数据。
* 轻度综合级:数据仓库的高级层,包含经过高度综合和分析的数据。
* 高度综合级:数据仓库的最高层,包含最终的分析结果。
数据仓库设计中的几个重要概念:
* ETL:Extract/Transformation/Load,即从数据源抽取出所需的数据,经过数据清洗、转换,最后加载到数据仓库中去。
* 元数据:关于数据的数据,包括数据源定义、目标定义、转换规则等相关的关键数据。
* 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。
* 分割:结构相同的数据被分成多个数据物理单元。
数据仓库设计中的其他重要概念:
* Data Mart:小型的,面向部门或工作组级数据仓库。
* Operation Data Store:操作数据存储,支持企业日常的全局应用的数据集合。
* data model:数据模型,包括逻辑数据结构和用于表示数据的系统。
* artifact:人工关系,在 DSS 环境中用于表示参照完整性的一种设计技术。
数据仓库的应用:
* 支持企业管理和决策。
* 实现数据的集成和分析。
* 提高数据的利用率和价值。
* 提高企业的竞争力和管理水平。
数据仓库的挑战:
* 数据集成问题。
* 数据动态集成问题。
* 历史数据问题。
* 数据的综合问题。
* 抽取程序的问题。
* 生产率低的问题。
数据仓库的发展前景:
* 数据仓库将继续作为企业管理和决策的重要工具。
* 数据仓库将继续推动企业的竞争力和管理水平。
* 数据仓库将继续面临新的挑战和机遇。
数据仓库是一个重要的企业管理和决策工具,能够帮助企业实现数据的集成和分析,提高数据的利用率和价值,提高企业的竞争力和管理水平。但是,数据仓库也面临着许多挑战和机遇,需要企业和技术人员共同努力来推动数据仓库的发展。