任务 2.5 数据融合
任务概述
本节主要介绍常见的数据融合的原理和方法,并通过案例实现进行实操演示。
数据集选用“工业用水处理投药量数据”。
数据连接是基于连接字段按照给定的连接方式进行两个表格的字段组合得
到新的数据表,支持两个数据表的单个或多个字段为连接字段的连接操作,连接
方式包括内连接、外连接、左连接、右连接。
数据追加是针对原有业务数据库系统分析基础上提出的,它解决的是在数据
仓库初始数据转载后,如何再向数据仓库输入变化的数据的问题。它要求对原有
的业务系统作最小改造,并记录在数据追加周期内数据的变化过程减小由于提取
周期而影响数据分析展现,同时减少访问整个业务数据库。“数据追加周期”是
指将操作型环境的变化反映到数据仓库中,会有一个时间延迟。
数据拆分即数据分割,是指把逻辑上是统一整体的数据分割成较小的、可以
独立管理的物理单元进行存储,以便于重构、重组和恢复,以提高创建索引和顺
序扫描的效率。数据分割使数据仓库的开发人员和使用者具有更大的灵活性。
通过本任务的学习:
(1)能够选择系统内的数据源,通过数据融合的方式对数据进行连接;
(2)能够选择系统内的数据源,通过数据融合的方式对数据进行追加;
(3)能够选择系统内的数据源,通过数据融合的方式对数据进行拆分。
任务实现
2.5.1 数据连接
数据连接是基于连接字段按照给定的连接方式进行两个表格的字段组合,从
而得到新的数据表,支持多个数据表的单个或多个字段为连接字段的连接操作,
连接方式包括内连接、外连接、左连接、右连接。