没有合适的资源?快使用搜索试试~ 我知道了~
Hadoop系统架构.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 119 浏览量
2022-10-30
23:18:39
上传
评论
收藏 932KB DOCX 举报
温馨提示
试读
26页
!
资源推荐
资源详情
资源评论
-
-
-
一、绪论
21 世纪的第一个十年里,互联网高速发展,Web 的易用性、实用性使它成
为最为广泛、最有前途、最有魅力的信息传播技术。作为信息交互的载体,Web
的特性催生了多种新兴产业,电子商务、社交网络在最近几年发展尤为迅速。互
联网用户也在过去的数年间增长迅速,根据我国互联网络信息中心发布的《第
27 次中国互联网络发展状况统计报告》显示,截至 2010 年 12 月底,我国网民
规模达到 4.57 亿,较 2009 年底增加 7330 万人。报告中还显示,网络购物用户
年增长 48.6%,是用户增长最快的应用。2011 年以微博为代表的新型社交迅速
成长,新浪微博在 2011 年 9 月注册用户达到 2.75 亿,微博用户平均每天发布的
微博数达到 8600 万条。无论是电子商务中的产品图片展示,还是社交中的图片
分享,其图片数量都在呈现几何基础的增长。
以国外几大 IT 巨头为例,截止至 2011 年 6 月,Facebook 用户已经上传了
150 亿照片,加上缩略图,总容量超过 L5PB。此外,每周新增照片为 2.2 亿,
约 25TB。高峰期,Facebook 每秒处理 55 万照片!国外最大的图片分享 Flickr 共
存储 4.7 亿图片,而且相当多的图片是高清数码图片,单图片大小 4?5M 左右,
消耗 2PB 存储空间,每秒需要处理 38000 次请求,每天新增图片超过 40 万。Flickr
采用的 squid 缓存了总计 3500 万图片,存中存储有 200 万图片。淘宝网作为我
国最大的电子商务平台,在线商品达到 10 亿,图片服务器存储 286 亿图片,总
容量达到 1PB,且每天仍在以千万级别增长。由于图片表达信息远胜于文字描述,
所以电子商务尤其注重图片的显示质量、上传时间、访问速度等问题。根据淘宝
网的流量分析,整个淘宝网流量中,图片的访问流量达到90%以上。腾讯的相册
-
z
-
-
-
-
用户总上传图片数 600 亿存储量 12PB、每周上传图片数 10 亿、存储 3 种规格
1300 亿图片,峰值访问每秒 50 万次。由于图片量非常大,海量图片需要消耗海
量的存储空间,图片的存储和检索都会出现一定的瓶颈,存储系统的快速访问、
扩容性、容错性都将是存储系统设计的目标。由此可见,面对海量的图片,如何
高效的存储、管理这些图片已经成为一个迫切需要解决的问题。
NetApp,美国网域存储技术,是 IT 存储业界的佼佼者,倡导向数据密集型
的企业提供统一的存储解决方案,用以整合在网络上来自服务器的数据,并有效
管理呈爆炸性增长的数据。大多数 IT 公司在面临海量数据存储问题的时候都会
选择 NetApp 公司提供的商用存储系统,淘宝网 2007 前一直使用应用该公司的
文件存储系统。但随着图片文件数量以每年 2 倍的速度增长,NetApp 公司最高
端的产品也不能满足淘宝网存储的要求。商业存储服务的不足有以下几点:
首先是文件数量太大,网络存储设备无法支撑,连接存储系统的服务器越来
越多,网络连接数已经达到了网络存储设备的极限。
其次是商用存储系统不能根据企业特定的业务进行存储和读取优化,导致面
对大规模的小文件存储与读取,磁盘磁头需要频繁的寻道和换道,造成读取上的
延迟。再加上高并发访问量的背景,系统很容易出现问题。
最后是花费问题,商业存储系统扩容成本太高,10T 的存储容量需要几百万
人民币。在面临海量存储需求的时候,高成本并没有带来高效率,高可靠性,高
容错性。况且,过分依赖商业系统在维护性、创造性上受到商业公司约束,难以
满足互联网企业的飞速发展。
云计算的出现带动了技术发展朝向一个新的方向。它创造性的根据分布式处
-
z
-
-
-
-
理、并行处理和网格计算的发展,提出了新的分布式集群技术。云存储概是在云
计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分
布式文件系统等功能,将网络量各种不同类型的存储设备通过应用软件集合起来
协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运
算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存
储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据
存储和管理为核心的云计算系统。
云存储的概念改变了存储领域,可以尝试以相对廉价的存储设备部署在云端
作为存储服务器,利用分布式文件系统统一管理,对外提供存储和业务访问接口。
由云端提供存储服务,达到业务与存储的解稱合,不仅能根据不同业务背景设定
不同的存储、访问接口,优化存取服务,还能将容灾和安全性固定在云端,此外,
由于采用分布式文件系统,云端服务器扩展相对容易。
二、Hadoop 云计算系统
Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发。作为 Google
一系列产品的幵源实现,是一个更容易开发和运行处理大规模数据的软件平台。
Hadoop 中包含一系列相关的子项目,这些项目都隶属于 Apache 软件基金会。
最著名的是并行计算模型(MapReduce)和分布式文件系统(HDFS),其他的子系
统提供了一些附加功能,或者在 core 上增加了一些高级的抽象。
Core:分布式系统和通用 I/O 组件和接口,支持序列化、Java 远程过程调用
等等。
-
z
-
-
-
-
Avro:支持跨语言过程调用,持久数据存储的数据序列化系统。
MapReduce:构建在廉价的 PC 机器上的分布式数据处理模型和运行环境。
HDFS:构建在廉价的 PC 机器上的分布式文件系统。
Pig:处理海量数据集的数据流语言和运行环境。
MapReduce 之上。
pig 运行在 HDFS 和
HBase:面向列的分布式数据库。HBase 使用 HDFS 作为底层存储,同时使
用 MapReduce 支持批处理模式的计算和随机查询。
ZooKeeper:提供分布式、高效的协作服务。ZooKeeper 提供分布式锁这样
的原子操作,可以用来构建分布式应用。
Hive:分布式数据仓库,Hive 使用 HDFS 存储数据,提供类似 SQL 的语言(转
换为 MapReduce 任务)查询数据。
Chukwa:分布式数据采集和分析系统。使用 HDFS 存储数据,使用 Mapreduce
输出分析报告。
三、分布式文件系统(HDFS)
Hadoop 分布式文件系统 HDFS 被设计成稳定的存储海量数据,并且适合运
行在普通硬件上的分布式文件系统。HDFS 能提供高吞吐量的数据访问性能,给
用户的应用提供更高的带宽,非常适合海量数据集上的应用。它运行于廉价的普
通硬件之上,但是可以提供可靠性、稳定的容错功能。面对海量数据和大量用户
仍然可以提供高质量的服务,具有优秀的并发处理的能力。
-
z
-
-
-
-
3.1 HDFS 的特点
(1) HDFS 认为硬件错误是一种正常的现象。HDFS 由成百上千的普通硬件构
成的服务器所组成,其中每个服务器上都存储着文件系维的数据块。HDFS 文件
系统非常庞大,其中的任何一个服务器都可能出现故障,这些服务器就会处于故
障状态,从而导致系统的一部分数据丢失,而且有一部分机器损坏之后可能无法
恢复到正常工作状态。所以及时的检查、错误检测、数据备份容错、自动恢复是
HDFS 分布式文件系统非常重要的功能。HDFS 分布式文件系统通过自己的检测协
议定时自动监控系统全部机器的状态,一旦检测到机器故障等问题,能够迅速地
检测,定位、冗余并恢复这些故障机器上的数据。基于以上设计的HDFS 就具有
错误检测和快速、自动恢复数据的功能。
(2) 在 HDFS 上运行的应用需要以流式访问它们的数据集。HDFS 具有很好的
数据批处理能力。HDFS 更注重用于数据访问的高吞吐量,而对于数据访问的延
迟和响应时间要求不做很严格处理。
(3) HDFS 上的应用一般都是处理海量数据集的程序。HDFS 上的文件大小一
般都在 GB 至 TB 的大小。HDFS 可以非常好的支持大文件存储。通过利用分布式
集群 HDFS 能提供非常高的数据传输带宽,HDFS 集群可以扩展到数百个节点。
同时一个 HDFS 文件系统可以支撑数以千万计的文件。HDFS 分布式文件系统可
以处理快速增长的、包含数以万计的对象、长度达 TB 的数据集,也可以管理成
千上万的 KB 规模的文件块。
(4) HDFS 采用一次写入多次读取的方式。在 HDFS 系统中一个文件经过创建、
写入和关闭之后就不允许再去修改这个文件,简化了数据一致性问题,实现了高
-
z
-
剩余25页未读,继续阅读
资源评论
不吃鸳鸯锅
- 粉丝: 8299
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功