大数据分析·原理与实践 10、面对大数据的数据仓库系统 面对大数据的数据仓库系统全文共45页,当前为第1页。 数据仓库 数据分析的对象是"数据" 因此必须对数据进行有效管理,这便是数据仓库的职责。 数据仓库两方面的需求 可扩展性和高效率。 面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。 面对大数据的数据仓库系统全文共45页,当前为第2页。 目录 数据仓库概述 分布式数据仓库系统 内存数据仓库系统 1 2 3 面对大数据的数据仓库系统全文共45页,当前为第3页。 目录 数据仓库概述 分布式数据仓库系统 内存数据仓库系统 1 2 3 面对大数据的数据仓库系统全文共45页,当前为第4页。 数据仓库概述 什么是数据仓库 一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。 ——W. H. Inmon 美国著名信息工程学家、数据仓库之父 面对大数据的数据仓库系统全文共45页,当前为第5页。 数据仓库概述 什么是数据仓库 一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。 ——W. H. Inmon 美国著名信息工程学家、数据仓库之父 面对大数据的数据仓库系统全文共45页,当前为第6页。 数据仓库概述 什么是数据仓库 1. 面向主题 这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。 2. 数据集成性 数据仓库中的数据采取统一的格式和编码方式。 3. 稳定的 这意味着数据仓库中的数据不进行实时更新。 4. 与时间相关的 这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。 面向 主题 集成的 稳定的 与时间相关的的 面对大数据的数据仓库系统全文共45页,当前为第7页。 数据仓库概述 数据仓库的内涵 1. 支持多种数据源 数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。 2. 不只存放数据 数据仓库中存放的应该不仅是供分析使用的数据,还应有在一 激发条件下能主动起作用的处理规则、算法、甚至是过程。 3. 虚拟数据仓库 传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。 4. 汇总并统一 据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此"汇总并统一"是数据仓库的必须内涵描述。 面对大数据的数据仓库系统全文共45页,当前为第8页。 数据仓库概述 四个基本功能 数据 定义 数据 管理 数据 提取 数据 应用 1. 数据定义 这部分主要完成数据仓库的结构和环境的定义。 2. 数据提取 这部分负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。 3. 数据管理 数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。 4. 数据应用 数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。 面对大数据的数据仓库系统全文共45页,当前为第9页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 是关于数据的数据,是关于数据和信息资源的描述信息。 是数据仓库的核心。 面对大数据的数据仓库系统全文共45页,当前为第10页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 2. 源数据 是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。 是数据仓库的物质基础。 面对大数据的数据仓库系统全文共45页,当前为第11页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 2. 源数据 3. 数据变换工具 为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。 包括数据抽取,数据转换,数据装载。 面对大数据的数据仓库系统全文共45页,当前为第12页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 2. 源数据 3. 数据变换工具 4. 数据仓库 源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。 属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库的关键。。 面对大数据的数据仓库系统全文共45页,当前为第13页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 2. 源数据 3. 数据变换工具 4. 数据仓库 5. 数据分析工具 数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要强大的分析和挖掘工具。 面对大数据的数据仓库系统全文共45页,当前为第14页。 数据仓库概述 数据仓库系统的体系结构 1. 元数据 2. 源数据 3. 数据变换工具 4. 数据仓库 5.