没有合适的资源?快使用搜索试试~ 我知道了~
大数据目前的综述性论文,主要讲的的并行数据库与mapreduce的比较,两者谁将会成为未来数据分析的主流产品工具。
资源推荐
资源详情
资源评论
第 34卷 第 1O期
2011年 1O月
计 算 机 学 报
CHINESE J OURNAL OF COM PUTERS
Vo1. 34 NO. 10
Oct. 2O11
架构大数 据 :挑 战 、现状与展望
王 珊” 王会举” ’ 覃雄派” 周
(数 据工 程与 知识 工 程教 育部 重点 实验 室 (中 国人 民大 学) 北京
(中 国人 民大 学信 息 学院 北京 100872)
摘 要 大数据分析相 比于传统 的数据仓库应用 ,具有数据量大 、查 询分析复杂等特 点.为 了设计适合 大数据分 析
的数 据仓库架构 ,文 中列举了大数据分析平 台需 要具 备的几个重要特性 ,对 当前 的主流实 现平 台——并行 数据库 、
MapReduce及基 于两者 的}昆合架构 进行 了分析归纳 ,指 出了各 自的优 势及不 足 ,同时也对 各个方 向的研 究现状 及
作者 在大 数据分析方 面 的努力 进行 了 介绍 ,对 未来研究做 了展望 .
关键 词 大数据 ;大规 模可扩展 ;MapReduce;并行数据库 ;深 度分 析
中 图 法 分 类号 TP311 DOI号 :10.3724/SP.J.1016.2011.01741
Architecting Big D ata:Challenges,Studies and Forecasts
W ANG Shan ’,。’ W ANG Hui—Ju Ⅲ QIN Xiong—Pai ZHOU Xuan
(Key Laboratory of Data Engineering and Knowledge Engineering(Renmin University of China)of M inistry of Education,Beijing 100872)
(School of Information,Renmin University of China,Beijing 100872)
Abstract Compared with traditional data warehouse applications,big data analytics are huge and
complex. To design a favorable architecture for big data analytics,this paper lists some key lea—
tures for big data analytics,sum marizes current main implem entation platform s(parallel databas—
es,M apReduce,and hybrid architectures based on them ),and points their pros and cons.Som e
current researches are also investigated,our work are introduced and som e challenging research
problems in the future are discussed.
Keywords big data;large scale;M apReduce;parallel database;deep analytics
1 引 言
最 近 几 年 ,数 据仓 库 又 成 为数 据 管 理 研 究 的热
点 领域 ,主要原 因 是 当前 数 据 仓库 系 统 面 临 的需 求
在 数据 源 、需提 供 的数 据 服 务 和所 处 的硬 件 环 境 等
方 面发 生 了根本 性 的变 化 (详 见 1.1节 ),这 些 变化
是 我们 必 须面对 的.
本 文 在 大 数据 的时 代 背景 下 ,对 现 有 数 据 仓库
系 统实 现 方案 (主 要 是 并 行 数 据 库 和 MapReduce)
进行 重 新审视 ,期 望 能为设 计 满 足 时代 需 求 的数 据
仓库系统提 供理论参考.限于篇 幅 ,本文主要关 注不
同数 据 仓库 实现 方案 的主 体架 构及 其缺 陷在 最 近几
年 的改 进情 况 .依 据研 究 立足 点 的不 同 ,本 文将该 领
域的研究归 为三大 类 :并 行数据 库 、MapReduce、并
行 数据 库 和 MapReduce技 术 的混合 架构 .其 中第 三
类 研究 又 细 分 为 :并 行 数 据 库 主 导 型 、MapReduce
主导型 、并行 数 据 库 和 MapReduce集 成 型 三种 .本
收稿 日期 :2011-08—12;最终修 改稿 收到 日期 :2o11—09 15.本课题 得到 国家 重大科技 专项核 高基项 目(2010ZX01042—001—002)、国家 自然
科学基金(61070054,61170013)、中国人民大学科学研究基金(中央高校基本 科研业务 费专项资金 。10XN1018)、中 国人 民大学研究 生基
金(1lXNH120)资助.王 珊 ,女 ,1944年生 ,教授 ,博士生导师 ,中国计算机学会(CCF)高级会员 ,主要研究 领域为高性能数据库 、知识工
程 、数据仓库.E-mail swang.@ruc.edu.cri.王会举 ,男 ,1979年生 ,博士研究生 ,主要研究方向为大规模集 群数据库 、内存数据库.E—mail:
wanghuiju@ruc.edu.en.覃雄派 ,男 ,1971年生 ,博士 ,讲师 ,中国计算机学会(CCF)会员 ,主要研究方向为数据库查 询优化、内存数 据库 、
并行数据库.周 煊,男,1979年生 ,博 士,副教授 ,主要研究 方向为信 息检 索、高性 能数 据库.
一
计 算 机 学 报
文第 1节 分析 大数 据 时代 ,数 据仓 库 所 面 临 的 问题
及挑 战 ;第 2节 列 出大 数 据 时 代 的数 据 仓 库 平 台需
具备 的几 个重要 特性 ;第 3节到第 5节 就 这 几个 特
性对各 类平 台进 行 归 纳分 析 ;第 6节 对 最 新研 究 做
一
跟踪 归 纳 ;第 7节 介 绍 中国 人 民大 学 在 大数 据 分
析方 面 的研 究工 作 ;第 8节对未 来研 究做 出展 望 ;第
9节总结 全 文.
1.1 三个 变化
(1)数据 量.由 TB级 升 至 PB级 ,并 仍 在 持续
爆 炸式 增 长.根据 WinterCorp的调 查 显 示 ,最 大 的
数据仓 库 中的数 据量 ,每两 年增 加 3倍 口 (年均增 长
率为 173%),其增 长速 度 远 超摩 尔 定 律 增 长速 度.
照此增 长 速度计 算 ,2015年 最 大数 据仓 库 中的数 据
量将逼 近 100PB.
(2)分 析需求 .由常规 分 析转 向深 度 分析 (Deep
Analytics).数据 分析 日益成 为企 业利 润必 不可 少 的
支撑 点.根据 TDWI对大数据分析的报告_2](如图 1),
企业 已经不满 足于对现有 数据 的分 析和监测 ,而是 更
期望 能对 未来趋 势 有 更 多 的分 析 和 预测 ,以增 强 企
业 竞争 力.这些 分析操 作包 括诸 如移 动平均 线分 析 、
数 据关 联关 系分 析 、回归 分析 、市场 篮分析 等复 杂统
计 分析 ,我 们称 之 为深 度 分 析.值 得 补充 的是 ,本 文
中的大数 据 分 析 不仅 仅 指 基 于大 数 据 上 的深 度 分
析 ,也 包括 常规 分析 .
1980s I990s 2000s 2010s(mainst ̄eam)
图 1 分 析 的趋 势
(3)硬件平 台.由高 端服务器 转 向由中低 端硬
件构 成 的大规模 机 群平 台.由于数 据量 的迅速 增加 ,
并行 数据 库 的规模 不 得 不 随 之增 大 ,从 而 导 致 其成
本 的急 剧上 升.出于成本 的考 虑 ,越 来越 多 的企业将
应用 由高端服 务 器转 向 了由 中低 端硬 件构成 的大规
模 机群 平 台.
1.2 两个 问题
图 2是一个 典型的数 据仓库 架构 ].从 图 中我
们可 以看 出 ,传 统的数 据仓 库将整 个实现 划分为 4
个 层 次 ,数 据源 中 的数 据 首先通 过 ETI 工具 被抽取
到数 据仓库 中进行 集 中存 储 和 管 理 ,再 按照 星 型模
型或 雪花模 型组 织数 据 ,然后 OI AP工具 从 数据 仓
库 中读取数 据 ,生 成 数 据立 方 体 (MOI AP)或 者 直
接 访 问数据仓 库 进行数 据分 析 (ROLAP).在 大数 据
时代 ,此种计 算模 式存 在两 个 问题 :
问题 1. 数据 移 动代 价 过 高.在 数 据 源 层 和 分
析层 之 间引入一 个存 储 管 理 层 ,可 以提 升数 据 质 量
并 针对 查询进 行 优 化 ,但 也 付 出 ,较 大 的数 据 迁 移
代 价 和执行 时 的连 接代 价 :数 据 首 先 通 过 复杂 且 耗
时的 ETI 过程 存 储 到数 据 仓 库 中,在 OI AP服 务
器 中转化为 星 型模 型 或者雪 花模 型 ;执 行分 析 tl寸,又
通 过 连接方 式将 数 据从 数 据 库 中取 出.这些 代 价 在
TB级 时也许 可 以接 受 ,但 面对 大 数据 ,其 执行 时 问
至 少会 增长几 个 数量级 .更 为重 要 的是 ,对 于大量 的
即席分 析 ,这 种数 据移 动 的计 算 模式是 不 可取 的.
日
日
日
[二] 数据集市
数据源 : 数据存储与管理 ()LAI 服务: 前端展现
图 2 一个典 的数据 仓库 架构
问题 2. 不能 快 速适 应 变 化.传 统 的数 据 仓 库
假 设 主题是 较少 变 化 的 ,其 应对 变 化 的 方 式是 对 数
据源 到前 端 展 现 的 整 个 流 程 中 的 每 个 部 分 进 行 修
改 ,然 后再 重新加 载 数 据 ,甚 至 重 新计 算 数 据 ,导致
其 适 应变化 的周 期 较 长.这 种模 式 比较 适 合对 数 据
质量 和查询 性 能要 求 较 高 、而不 太 计 较预 处 理代 价
的场 合.但 在大 数据 时代 ,分析处 在 变化 的业 务环境
中,这 种模 式将 难 以适 应新 的需求.
1.3 一个 鸿沟
在大 数 据 时代 ,巨量 数 据 与系 统 的数 据 处理 能
力之 间将会 产 生 一个 鸿 沟 :一 边 是 至少 PB级 的数
据量 ,另 一边是 面 向传 统 数 据 分 析能力 设 计 的 数据
仓库 和各 种 BI工 具.如 果 这些 系 统 或工 具 发 展 缓
慢 ,该鸿 沟将会 随 着数 据 量 的持 续爆 炸 式 增 长 而 逐
步 拉大 .
虽 然 ,传 统数 据 仓 库 可 以采 用舍 弃 不重要 数 据
或者建 立数据集市 的方 式来缓 解此问题 ,但毕竟 只
王 珊等 :架 构大 数据 :挑 战 、现状 与展 望 1743
是权 益 之策 ,并非 系统 级 解 决 方 案.而 且 ,舍 弃 的数
据在 未来 可能会 重新使用 ,以发掘 更大的价值.
2 期望 特 性
本 节我 们 列 出对 大数 据 进 行 分 析 时 ,数据 仓 库
系统 需具 备 的几个 重要 特 性 (表 1所 示 ).
表 1 大数 据 分 析 平 台需 具 备 的 特 性
特性 简要 说明
高度 可 扩 展性
高性 能
高度 容错 性
支持 异 构环境
较 低 的 分 析延 迟
易用 且 开放 接 口
较低 成本
向下 兼 容 性
横向 大规 模可 扩 展 ,大规 模并 行处 理
快速 响应 复杂 查 询与 分析
查询 失败 时 ,只 需重 做部 分 工作
对硬 件平 台一 致 性要 求不 高 ,适 应能 力强
业 务需 求 变 化 时 ,能 快 速 反 应
既能 方便 查询 ,又能 处理 复杂 分析
较高 的性 价 比
支持 传统 的商 务 智能 工具
高度 可 扩展 性 .一 个 明显 的事 实 是 ,数 据 库 不
能依 靠一 台或 少 数 几 台机 器 的 升 级 (scale—up纵 向
扩展 )满 足数 据量 的爆 炸式 增 长 ,而是希 望 能方便 地
做 到 横 向可扩 展 (scale—out)来 实 现此 目标 .
普遍 认 为 shared—nothing无 共 享 结 构 (每 个 节
点拥 有私 有 内存 和磁 盘 ,并 且通 过 高速 网络 同其 它
节 点互 连 )具备 较好 的扩展 性¨4].分析 型操 作往 往 涉 .
及 大 规模 的并 行 扫描 、多维 聚集 及 星型 连接 操作 ,这
些 操 作也 比较 适 合 在无 共 享结 构 的 网络 环 境 运 行 .
Teradata即采用 此结构 ,Oracle在其 新 产 品 Exadata
中也 采用 了此 结构 .
高性 能.数 据量 的增 长并 没 有 降低对 数 据库 性
能的 要求 ,反 而有所 提 高.软件 系统 性能 的提 升 可 以
降低企 业 对硬 件 的投入 成本 、节 省计 算资 源 ,提 高系
统 吞 吐量 .巨量数 据 的效 率 优 化 ,并 行 是 必 由之 路.
1PB数 据 在 50MB/s速 度 下 串行 扫 描 一 次 ,需 要
230天 ;而在 6000块 磁 盘 上 ,并 行 扫 描 1PB数 据 只
需 要 1个 小时 .
高度 容错 .大数 据 的容 错 性要 求在 查 询 执行 过
程 中 ,一个参 与节 点 失 效 时 ,不 需 要 重 做 整个 查 询 .
而 机群 节点 数 的增 加 会 带 来节 点 失 效 概 率的增 加 .
在 大规 模机 群环 境 下 ,节 点 的失 效 将 不 再 是 稀 有 事
件 (Google报 告 ,平 均 每个 MapReduce数 据 处 理 任
务 就有 1.2个工 作节 点 失效 ).因此在 大 规模 机 群
环境 下 ,系统 不 能依赖 于硬件 来保 证容 错 性 ,要 更 多
地考 虑 软件 级容 错.
支持 异 构环 境.建 设 同构 系 统 的大 规模 机群 难
度 较 大 ,原 因在于计 算 机硬 件更 新较 快 ,一次 性购 置
大量 同构 的计算 机是 不 可 取 的 ,而且 也 会 在未 来 添
置异 构计 算 资源 .此外 ,不 少企业 已经积 累 了一些 闲
置 的计算 机 资源 ,此种 情况 下 ,对 异 构环 境 的支持 可
以有 效地 利用 这 些 闲置 计 算 资 源 ,降低 硬 件 成 本 的
投入 .还 需特别 关 注 的是 ,在 异 构 环 境 下 ,不 同节 点
的性 能是 不一 样 的 ,可 能 出现“木 桶 效应 ”,即最慢 节
点 的性 能决定 整体 处理 性 能.因此 ,异构 的机 群需 要
特别 关 注负 载均衡 、任 务调度 等方 面 的设 计 .
较低 的分析 延 迟.分析延 迟 指 的是分 析 前 的数
据准 备时间.在大数据 时代 ,分 析所 处的业务环境 是
变化 的 ,因此也要 求 系 统 能 动 态地 适 应 业 务 分 析 需
求.在分 析需 求发 生变 化 时 ,减 少数 据 准备 时间 ,系
统能 尽 可能快 地做 出反应 ,快速 地进 行数 据 分析 .
易 用且 开 放的 接 口.sQL 的优 点是 简 单 易用 ,
但其 主要 用 于数 据 的检 索 查 询 ,对 于大 数 据 上的 深
度分 析来 讲 ,是 不 够 的.原 因在 于 :(1)其 提 供 的服
务方 式 依赖 于数 据 移 动来 实 现 :将 数 据 从 数 据库 中
取 出 ,然 后传 递 给应用 程序 ,该 实现 方式 在大 数据 时
代代 价 过高 ;(2)复 杂 的分 析 功 能 ,如 R 或 Matlab
中的分 析功能 ,SQL是难 以胜 任 的.因此 ,除对 SQL
的支 持外 ,系 统还 应能 提供 开放 的接 口 ,让用 户 自己
开发 需要 的功 能 .设 计 该接 口时 ,除 了关 注其 易用 性
和开 放性 ,还需 要 特别 注 意两 点 隐藏 的要 求 :(1)基
于接 口开发 的用 户 自定 义 函数 ,能 自动 在 机 群上 并
行执 行 ;(2)分 析在 数据 库 内进 行 ,即分 析 尽可 能 靠
近数 据 .
较低 的成 本 .在 满 足 需 求 的前 提 下 ,某 技 术 成
本越 低 ,其生命 力 就越 强.需 要 指 出的是成 本 是一 个
综 合 指标 ,不仅 仅 是硬 件或 软件 的代 价 ,还 应 包括 日
常运 维成 本 (网络 费用 、电费 、建 筑等 )和 管理 人员 成
本等 .据 报告 ,数 据 中心 的主要成 本 不是 硬件 的购置
成本 ,而 是 日常运 维 成 本.因此 ,在 设 计 系 统 时 需 要
更 多 地关 注此 项 内容.
向下 兼容 性.数 据仓 库 发展 的 30年 ,产生 了大
量 面 向客 户业 务 的数 据 处 理 工 具 (如 Informactica、
DataStage等 )、分 析软件 (如 SPSS、R、Matlab等 )和
前 端 展现 工具 (如水 晶报 表 )等.这 些 软 件 是 一笔 宝
贵 的财 富 ,已被 分析 人员 所熟 悉 ,是大 数据 时代 中小
规模 数据 分析的必要补充.因此 ,新的数据 仓库 需考
虑 同传统 商务智 能 工 具 的 兼 容 性.由于 这 些 系统 往
往提 供标准 驱动程 序 ,如 ODBC、JDBC等 ,这项 需
求的实际要求是 对 sQL的支持 .
总 之 ,以较 低 的 成 本 投 入 、高 效 地 进 行 数 据 分
析,是大数 据分析 的基本 目标.
剩余11页未读,继续阅读
资源评论
陆大叶
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现的运用图像处理计数对文字图片中的汉字进行识别,并统计图片中文字个数.rar
- 基于matlab实现的这是一个车牌定位识别的源代码,在文字识别,车牌定位等领域中广泛应用,很好用 .rar
- 基于MT40A1G8WE-083EB芯片(8片) Mini PC - SODIMM DDR4内存条AD设计硬件(原理图+PCB)
- 基于matlab实现的智能故障诊断技术MATLAB应用.rar
- 电子信息、网络安全相关法律法规全面总结
- 基于python一款入门级的人脸、视频、文字检测以及识别的项目.rar
- 基于matlab实现的制冷循环模型 定制Simscape两相流域中的制冷循环模型.rar
- 基于matlab实现的组合搜索的完整代码.rar
- 自做STLINK-V2下载器,开源,实测可用
- 精品专题(2023-2024年收藏)SAP中PS模块成本控制以及与FI的集成点
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功