没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
从 20 世纪开始,政府和多行业(如医疗、网络、金融和电信)的信息化得到了迅速发展,积
累了海量数据。这些数据大部分是非结构化数据,虽然国内的各类数据中心已有足够的硬件
设施来存储这些数据,但是如何让这些数据产生最大的商业价值,是目前数据拥有者所需考
虑的。此外,由于数据的增长速度越来越快、数据量越来越大,传统的数据库或数据仓库很
难存储、管理、查询和分析这些数据,如何在软件层面实现 PB 级乃至 ZB 级数据的处理与
计算也是需要数据拥有者思考的。、
近几年,由于大数据处理和应用需求急剧增长及大数据处理的多样性,学术界和工业界不断
研究推出新的或改进的计算模式和系统工具。目前主要有三方面的重要发展超势和方向:
Hadoop 性能提升和功能增强,混合式大数据计算模式和基于内存计算的大数据计算模式与
技术。
4.1 Hadoop 处理框架
Hadoop 框架是用 Java 语言编写的,它的核心是 HDFS 和 MapReduce,HDFS 为大数据
提供了有效的存储方法,MapReduce 为大数据提供了高效的计算方法。Hadoop 在业内得
到了广泛应用,同时成为大数据的代名词。Hadoop 是由 Apache 开发的一个项目,这一个
开源的可运行于大规模集上的分布式并行编程框架,由 HDFS、MapReduce、HBase、Hive
和 ZooKeeper 等组成。Hadoop 的核心组件包括 Hadoop 文件系统(HDFS)和 MapReduce 计
算框架,它们是谷歌文件系统(GFS)和 MapReduce 的开源实现版本。MapReduce 和分布式
文件系统的设计,使得应用程序能够在成干上万独立计算的计算机上运行并操作 PB 级的数
据。Hadoop 集群可以在三种模式下运行:。单机模式、伪分布式模式和金分布式模式。 在
单机模式中不存在守护进程,所有数据运行在一个 JVM 上。单机模式适用 于开发过程中运
行 MapReduce 程序,也是最少使用的一种模式。
4.1.1 HDFS
HDFS 是 Hadoop 的一个分布式文件系统,是可运行在廉价机器上的可容错分布式文件
系统。它既与分布式文件系统有共同点,又有一些特殊且明显的特征。在处理海量数据时,
经常碰到一一 些大文件(GB 级甚至 TB 级),[分布式在常规的系统上,这些大文件的读写需
要花费大量的时间。HDFS 优化了优意会系统]大文件的流式读取方式, 它将一个大文件分
割成一个或者多个数据块,分发到集群的节点上,从而实现了高吞吐量的数据访问,集群拥
有数百个节点,并支持千万级别的文件处理。因此,HDFS 非常适用于大规模数据集。
HDFS 的设计者认为硬件故障会经常发生,因此采用块复制的概念,让数据在集群的节
点间进行复制。HDFS 有一个复制因子参数,默认为 3。利用块复制的概念实现了一个具有
高容错性的系统。当硬件出现故障时,复制数据可以保证数据的高可用性。因为具有容错的
特性,HDFS 适合部署在廉价的机器上。但是一块数据及其备份不能放在同一个机器上,如
果机器发生故障,备份会与原数据一起丢失,备份也就没意义了。通常,大型 Hadoop 集群
会分布在很多机架上。假设 HDFS 运行在一个具有树状网络拓扑结构的集群上,集群由多个
数据中心组成,每个数据中心里有多个机架,每个机架上有多台计算机,此时希望不同计算
机节点之间的通信能发生在同一机架内。另外,为了提高容错能力,名字节点会尽可能把数
据块的副本分别放到多个机架上。综合考虑这两点,在 Hadoop 中设计了机架感知(Rack
Awareness, RA)功能。HDFS 使用 RA 功能,先将一份副本放入同机架上的服务器,然后复制
一份到其他服务器(这台服务器可能位于不同数据中心)。如此,若机架感知某个数据点发生
故障,即可从另一个机架上调用。除了 RA 功能,现在还有基于 Erasure Code 的编码存储方
法,这种方法本来用于通信容错领域,既可节约空间又可达到容错的目的。目前谷歌和淘宝
等存储的大数据规模为 PB 级,大数据增长速度远超摩尔定律中信息技术进步的速度。如何
利用有限存储资源满足迅速膨胀的存储需求是亟需解决的问题。多副本策略在满足存储可靠
资源评论
季心
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 单相桥式全控整流MATALB Simulink仿真文件
- Dolby Vision安装包(解决杜比视界版本高清片源颜色不正问题)
- Python实现的简单二叉堆(最小堆)示例
- 嵌入式基础学习资料0000
- content_1714465331721.xls
- HM3401-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- Chainbase+Web3+APi+Data warehouse
- HM3401D-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- GEE案例-1990-2023年计算某个区域的NDVI时序变化轨迹(以徐州市为例)含全部代码.pdf
- HM3401C-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功