大数据预处理架构和方法简介
数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转
换(Data Transformation)和数据消减(Data Reduction)。本节在介绍大数据预处理基
本概念的基础上对数据预处理的方法进行讲解。
大数据预处理整体架构
大数据预处理将数据划分为结构化数据和半结构化 /非结构化数据,分别采用传统 ETL 工
具和分布式并行处理框架来实现。总体架构如图 1 所示。
图 1 大数据预处理总体架构
结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证
数据的一致性方面有天然的优势。
非结构化数据可以存储在新型的分布式存储中,如 Hadoop 的 HDFSo 半结构化数据可
以存储在新型的分布式 NoSQL 数据库中,如 HBase。