大数据相关理论和技术(2)
胡经国
二、大数据技术
相关文献对大数据技术进行了简要论述,现将其介绍于下,供读者参考。
本文在篇章结构、内容和文字上对原文献做了修改和补充,并且添加了一些小
标题,特此说明。
大数据技术包括数据采集、数据存取、基础架构、数据处理、统计分析、
数据挖掘、模型预测和结果呈现等。
1、数据采集
ETL 是数据 Extract(抽取)、Transform(转换)、Load(加载)的简写,
它是指将 OLTP 系统中的数据抽取出来;并将不同数据源的数据进行转换和整
合,得出一致性的数据;然后加载到数据仓库中。
或者说, ETL(Extract-Transform-Load,抽取-转换-加载)工具负责将
分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中
间层;并进行清洗、转换、集成;最后加载到数据仓库或数据集市中,成为联
机分析处理、数据挖掘的基础。
OLTP(On-Line Transaction Processing ,联机事务处理过程,也称为面向交
易的处理过程)的基本特征是:在前台接收的用户数据可以立即传送到计算中
心进行处理,并且在很短的时间内给出处理结果,是对用户操作快速响应的方
式之一。
OLTP 系统,即是联机事务处理系统,又称为面向交易的处理系统,或实
时系统(Real time System)。其基本特征是用户的原始数据可以立即传送到计
算中心进行处理,并且在很短的时间内给出处理结果。这样做的最大优点是可
以即时地处理输入的数据,及时地回答用户。衡量联机事务处理系统的一个重
要性能指标是系统性能,具体体现为实时响应时间( Response Time),即用户
在终端上送入数据之后直到计算机对这个请求给出答复所需要的时间。
2、数据存取
通过关系型数据库、NOSQL(“不使用 SQL”的数据库,即非关系型数据
库)、SQL(在关系型数据库中用于检索数据的一种编程语言)等进行数据的
存取。
3、基础架构
大数据技术的基础架构包括云存储、分布式文件存储等。其中:
分布式文件系统(Distributed File System,DFS),是指文件系统管理的物
1