没有合适的资源?快使用搜索试试~ 我知道了~
中国人民大学王珊—架构大数据:挑战、现状与展望
需积分: 0 12 下载量 181 浏览量
2013-02-19
15:40:36
上传
评论
收藏 941KB PDF 举报
温馨提示
试读
12页
我国数据库专家王珊老师写的关于大数据的文章。大家都熟悉王珊老师。每个读计算机专业的人都学过萨师煊老师(已故)和她写的《数据库系统概论》。这篇文章高屋建瓴地阐述了当前大数据存在的问题和将来的发展趋势。非常有价值的一篇大数据综述文章。
资源推荐
资源详情
资源评论
第 34 卷 第 10 期
2011 年 10 月
计 算 机 学 报
CH INESE JOURNA L OF COM PU TER S
V ol. 34 N o. 10
Oct. 2011
收稿日期: 2011-08-12; 最终修改稿收到日期: 2011-09-15. 本课题得到国家 重大科技 专项核高基 项目( 2010ZX01042-001-002 ) 、国家自 然
科学基金( 61070054, 61170013) 、中国人民大学科学研究基金( 中央高校 基本科研业务费 专项资金, 10XN I018 )、中国人民大 学研究生 基
金( 11X N H120) 资助. 王 珊, 女, 1944 年生, 教授, 博士生导师, 中国计算机学会( CCF) 高级会员, 主要研究领域为高性能数据库、知识 工
程、数据仓库. E-mail: sw ang@ ru c. edu . cn. 王会举, 男, 1979 年生, 博士研究生, 主要研究方向为大规模集群数据库、内存数据 库. E- mail :
w anghui ju@ ruc. edu. cn. 覃雄派, 男, 1971 年生, 博士, 讲师, 中国计算机学会( CCF ) 会员, 主要研究方向为数据库查 询优化、内存数据 库、
并行数据库. 周 烜, 男, 1979 年生, 博士, 副教授, 主要研究方向为信息检索、高性能数据库.
架构大数据: 挑战、现状与展望
王 珊
1) , 2)
王会举
1) , 2)
覃雄派
1) , 2)
周 烜
1) , 2)
1)
( 数据工程与知识工程教育部重点实验室( 中国人民大学) 北京 100872)
2)
( 中国人民大学信息学院 北京 100872)
摘 要 大数据分析相比于传统的数据仓库应用, 具有数 据量大、查询分析复杂等 特点. 为 了设计适 合大数据分 析
的数 据仓库架构, 文中列举了大数据分析平台需要具备的 几个重要特性, 对 当前的主流 实现平台 ) ) ) 并 行数据库、
M apR educe 及基于两者的混合架构进行了分析归纳, 指出了 各自的 优势及不 足, 同时也 对各个方 向的研 究现状 及
作者在大数据分析方面的努力进行了介绍, 对未 来研究做了展望.
关键词 大数据; 大规模可扩展; M apReduce; 并行数据库; 深度分析
中图法分类号 T P 311 DOI 号: 10. 3724/ SP. J. 1016. 2011. 01741
Architecting Big Data: Challenges, Studies and Forecasts
WANG Shan
1) , 2)
WANG H u-i Ju
1) , 2)
QIN Xiong- Pai
1) , 2)
ZH OU Xuan
1) , 2)
1)
( K ey L abor ator y of Data Eng ineering and K now led ge Eng ineering ( Renmin Univ ersi ty of Ch ina) of M inist ry of E ducat ion, B eij i ng 100872)
2)
( S chool of I nf ormat ion , R enmin Uni v ersi ty of Ch ina , B ei j ing 100872)
Abstract Compar ed w ith traditio nal data w arehouse applications, big data analy tics are huge and
com plex . T o design a favo rable architecture f or big data analy tics, this paper lists som e key fea-
tures fo r big data analytics, sum marizes cur rent main implem ent ation plat for ms( parallel dat abas-
es, M apReduce, and hybrid architectures based o n them) , and points their pros and cons. Some
current resear ches are also inv estigated, our w ork ar e introduced and some challeng ing resear ch
pro blems in the future are discussed.
Keywords big data; large scale; M apReduce; parallel database; deep analytics
1 引 言
最近几年, 数据仓库又成为数据管理研究的热
点领域, 主要原因是当前数据仓库系统面临的需求
在数据源、需提供的数据服务和所处的硬件环境等
方面发生了根本性的变化( 详见 11 1 节) , 这些变化
是我们必须面对的.
本文在大数据的时代背景下, 对现有数据仓库
系统实现方案( 主要是并行数据库和 M apReduce)
进行重新审视, 期望能为设计满足时代需求的数据
仓库系统提供理论参考. 限于篇幅, 本文主要关注不
同数据仓库实现方案的主体架构及其缺陷在最近几
年的改进情况. 依据研究立足点的不同, 本文将该领
域的研究归为三大类: 并行数据库、M apReduce、并
行数据库和 M apReduce 技术的混合架构. 其中第三
类研究又细 分为: 并 行数据 库主导 型、MapReduce
主导型、并行数据库和 MapReduce 集成型三种. 本
文第 1 节分析大数据时代, 数据仓库所面临的问题
及挑战; 第 2 节列出大数据时代的数据仓库平台需
具备的几个重要特性; 第 3 节到第 5 节就这几个特
性对各类平台进行归纳分析; 第 6 节对最新研究做
一跟踪归纳; 第 7 节介绍中国人民大学在大数据分
析方面的研究工作; 第 8 节对未来研究做出展望; 第
9 节总结全文.
1. 1 三个变化
( 1) 数据量. 由 T B 级升至 PB 级, 并仍 在持续
爆炸式增长. 根据 WinterCor p 的调查显示, 最大的
数据仓库中的数据量, 每两年增加 3 倍
[ 1]
( 年均增长
率为 173% ) , 其增长速度远超摩尔定律增长速度.
照此增长速度计算, 2015 年最大数据仓库中的数据
量将逼近 100PB.
( 2) 分析需求. 由常规分析转向深度分析( Deep
Analy tics) . 数据分析日益成为企业利润必不可少的
支撑点. 根据 T DWI 对大数据分析的报告
[2]
( 如图 1),
企业已经不满足于对现有数据的分析和监测, 而是更
期望能对未来趋势有更多的分析和预测, 以增强企
业竞争力. 这些分析操作包括诸如移动平均线分析、
数据关联关系分析、回归分析、市场篮分析等复杂统
计分析, 我们称之为深度分析. 值得补充的是, 本文
中的大数据分析不仅仅指基于 大数据上的深 度分
析, 也包括常规分析.
图 1 分析的趋势
( 3) 硬件平台. 由高端服务器转向由中 低端硬
件构成的大规模机群平台. 由于数据量的迅速增加,
并行数据库的规模不得不随之增大, 从而导致其成
本的急剧上升. 出于成本的考虑, 越来越多的企业将
应用由高端服务器转向了由中低端硬件构成的大规
模机群平台.
11 2 两个问题
图 2 是一个典型的数据仓库架构
[ 3]
. 从图中我
们可以看出, 传统的数据仓库将整个实现划分为 4
个层次, 数据源中的数据首先通过 ET L 工具被抽取
到数据仓库中进行集中存储和管理, 再按照星型模
型或雪花模型组织数据, 然后 OLAP 工具从数据仓
库中读取数据, 生成数据立方体( M OLAP ) 或者直
接访问数据仓库进行数据分析( ROLA P) . 在大数据
时代, 此种计算模式存在两个问题:
问题 1. 数据移动代价过高. 在数据源层和分
析层之间引入一个存储管理层, 可以提升数据质量
并针对查询进行优化, 但也付出了较大的数据迁移
代价和执行时的连接代价: 数据首先通过复杂且耗
时的 ET L 过程存储到数据 仓库中, 在 OLA P 服务
器中转化为星型模型或者雪花模型; 执行分析时, 又
通过连接方式将数据从数据库中取出. 这些代价在
T B 级时也许可以接受, 但面对大数据, 其执行时间
至少会增长几个数量级. 更为重要的是, 对于大量的
即席分析, 这种数据移动的计算模式是不可取的.
图 2 一个典型 的数据仓库架构
问题 2. 不能快速适应变化. 传统的数据仓库
假设主题是较少变化的, 其应对变化的方式是对数
据源到前端展 现的整个流程中的每个 部分进行修
改, 然后再重新加载数据, 甚至重新计算数据, 导致
其适应变化的周期较长. 这种模式比较适合对数据
质量和查询性能要求较高、而不太计较预处理代价
的场合. 但在大数据时代, 分析处在变化的业务环境
中, 这种模式将难以适应新的需求.
1. 3 一个鸿沟
在大数据时代, 巨量数据与系统的数据处理能
力之间将会产生一个鸿沟: 一边是至少 PB 级的数
据量, 另一边是面向传统数据分析能力设计的数据
仓库和各种 BI 工具. 如 果这些系统或 工具发展缓
慢, 该鸿沟将会随着数据量的持续爆炸式增长而逐
步拉大.
虽然, 传统数据仓库可以采用舍弃不重要数据
或者建立数据集市的方式来缓解此问题, 但毕竟只
1742 计 算 机 学 报 2011 年
是权益之策, 并非系统级解决方案. 而且, 舍弃的数
据在未来可能会重新使用, 以发掘更大的价值.
2 期望特性
本节我们列出对大数据进行分析时, 数据仓库
系统需具备的几个重要特性( 表 1 所示) .
表 1 大数据分析平台需具备的特性
特性 简要说明
高度可扩展性 横向大规模可扩展, 大规模并行处理
高性能 快速响应复杂查询与分析
高度容错性 查询失败时, 只需重做部分工作
支持异构环境 对硬件平台一致性要求不高, 适应能力强
较低的分析延迟 业务需求变化时, 能快速反应
易用且开放接口 既能方便查询, 又能处理复杂分析
较低成本 较高的性价比
向下兼容性 支持传统的商务智能工具
高度可扩展性. 一个明显的事实是, 数 据库不
能依靠一台或少数几台机器的升级( scale- up 纵向
扩展) 满足数据量的爆炸式增长, 而是希望能方便地
做到横向可扩展( scale- out ) 来实现此目标.
普遍认为 shared- no thing 无共享结构( 每个节
点拥有私有内存和磁盘, 并且通过高速网络同其它
节点互连) 具备较好的扩展性
[ 4]
. 分析型操作往往涉
及大规模的并行扫描、多维聚集及星型连接操作, 这
些操作也比较适合在无共享结构的网络环境运行.
Teradat a 即采用此结构, Oracle 在其新产品 Ex adata
中也采用了此结构.
高性能. 数据量的增长并没有降低对数据库性
能的要求, 反而有所提高. 软件系统性能的提升可以
降低企业对硬件的投入成本、节省计算资源, 提高系
统吞吐量. 巨量数据的效率优化, 并行是必由之路.
1PB 数据 在 50MB/ s 速 度下 串 行扫 描一 次, 需 要
230 天; 而在 6000 块磁盘上, 并行扫描 1PB 数据只
需要 1 个小时.
高度容错. 大数据的容错性要求在查询执行过
程中, 一个参与节点失效时, 不需要重做整个查询.
而机群节点数的增加会带来节点失效概率的增加.
在大规模机群环境下, 节点的失效将不再是稀有事
件( Goo gle 报告, 平均每个 M apReduce 数据处理任
务就有 11 2 个工作节点失效
[ 5]
) . 因此在大规模机群
环境下, 系统不能依赖于硬件来保证容错性, 要更多
地考虑软件级容错.
支持异构环境. 建设同构系统的大规模机群难
度较大, 原因在于计算机硬件更新较快, 一次性购置
大量同构的计算机是不可取的, 而且也会在未来添
置异构计算资源. 此外, 不少企业已经积累了一些闲
置的计算机资源, 此种情况下, 对异构环境的支持可
以有效地利用这些闲置计算资源, 降低硬件成本的
投入. 还需特别关注的是, 在异构环境下, 不同节点
的性能是不一样的, 可能出现/ 木桶效应0, 即最慢节
点的性能决定整体处理性能. 因此, 异构的机群需要
特别关注负载均衡、任务调度等方面的设计.
较低的分析延迟. 分析延迟指的是分析前的数
据准备时间. 在大数据时代, 分析所处的业务环境是
变化的, 因此也要求系统能动态地适应业务分析需
求. 在分析需求发生变化时, 减少数据准备时间, 系
统能尽可能快地做出反应, 快速地进行数据分析.
易用且开放的接口. SQL 的优点是简单易用,
但其主要用于数据的检索查询, 对于大数据上的深
度分析来讲, 是不够的. 原因在于: ( 1) 其提供的服
务方式依赖于数据移动来实现: 将数据从数据库中
取出, 然后传递给应用程序, 该实现方式在大数据时
代代价过高; ( 2) 复杂的分析功能, 如 R 或 M atlab
中的分析功能, SQL 是难以胜任的. 因此, 除对 SQL
的支持外, 系统还应能提供开放的接口, 让用户自己
开发需要的功能. 设计该接口时, 除了关注其易用性
和开放性, 还需要特别注意两点隐藏的要求: ( 1) 基
于接口开发的用户自定义函数, 能自动在机群上并
行执行; ( 2) 分析在数据库内进行, 即分析尽可能靠
近数据.
较低的成本. 在满足需求的前提下, 某技术成
本越低, 其生命力就越强. 需要指出的是成本是一个
综合指标, 不仅仅是硬件或软件的代价, 还应包括日
常运维成本( 网络费用、电费、建筑等) 和管理人员成
本等. 据报告, 数据中心的主要成本不是硬件的购置
成本, 而是日常运维成本. 因此, 在设计系统时需要
更多地关注此项内容.
向下兼容性. 数据仓库发展的 30 年, 产生了大
量面向客户业务的数据处理工具( 如 Informactica、
DataStag e 等) 、分析软件( 如 SPSS、R、M at lab 等) 和
前端展现工具( 如水晶报表) 等. 这些软件是一笔宝
贵的财富, 已被分析人员所熟悉, 是大数据时代中小
规模数据分析的必要补充. 因此, 新的数据仓库需考
虑同传统商务智能工具的兼容性. 由于这些系统往
往提供标准驱 动程序, 如 ODBC、JDBC 等, 这项需
求的实际要求是对 SQ L 的支持.
总之, 以较低的 成本投入、高 效地进行 数据分
析, 是大数据分析的基本目标.
174310 期 王 珊等: 架构大数据: 挑战、现状与展望
剩余11页未读,继续阅读
资源评论
patrickjiang
- 粉丝: 14
- 资源: 37
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功