没有合适的资源?快使用搜索试试~ 我知道了~
Facebook数据仓库
5星 · 超过95%的资源 需积分: 10 3 下载量 197 浏览量
2012-01-30
13:31:55
上传
评论
收藏 440KB DOCX 举报
温馨提示
试读
6页
Facebook数据仓库架构介绍
资源详情
资源评论
资源推荐
本文介绍了 Facebook 公司数据分析系统中的 RCFile 存储结构,该结构集行存储和列存储的优点于一
身,在 MapReduce 环境下的大规模数据分析中扮演重要角色。
Facebook 曾在 2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了
数据仓库 Hive。Hive 存储海量数据在 Hadoop 系统中,提供了一套类数据库的数据存储和处理机制。它
采用类 SQL 语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于 Hadoop 的
MapReduce 任务,通过执行这些任务完成数据处理。图 1 显示了 Hive 数据仓库的系统结构。
图 1 Hive 数据仓库的系统结构
基于 MapReduce 的数据仓库在超大规模数据分析中扮演了重要角色,对于典型的 Web 服务供应商,这
些分析有助于它们快速理解动态的用户行为及变化的用户需求。数据存储结构是影响数据仓库性能的关键
因素之一。Hadoop 系统中常用的文件存储格式有支持文本的 TextFile 和支持二进制的 SequenceFile
等,它们都属于行存储方式。Facebook 工程师发表的 RCFile: A Fast and Spacee(cient Data
Placement Structure in MapReducebased Warehouse Systems 一文,介绍了一种高效的数据存
储结构——RCFile(Record Columnar File),并将其应用于 Facebook 的数据仓库 Hive 中。与传统
数据库的数据存储结构相比,RCFile 更有效地满足了基于 MapReduce 的数据仓库的四个关键需求,即
Fast data loading、Fast query processing、Highly e(cient storage space utilization 和
Strong adaptivity to highly dynamic workload patterns。
数据仓库的需求
基于 Facebook 系统特征和用户数据的分析,在 MapReduce 计算环境下,数据仓库对于数据存储结构
有四个关键需求。
Fast data loading
对于 Facebook 的产品数据仓库而言,快速加载数据(写数据)是非常关键的。每天大约有超过 20TB 的
数据上传到 Facebook 的数据仓库,由于数据加载期间网络和磁盘流量会干扰正常的查询执行,因此缩短
数据加载时间是非常必要的。
Fast query processing
thtfit
- 粉丝: 0
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论1