没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1
Hadoop
安装部署
Richard Zhao
2012/4/19
2
目录
!
一.
HADOOP
简介
........................................................................................................................... 3
1.1 HADOOP 主要的特点 ....................................................................................................................... 3
1.2HADOOP 的用途 ............................................................................................................................... 4
二.
HADOOP
架构
........................................................................................................................... 4
2.1 HDFS ............................................................................................................................................... 4
2.1.1 NameNode .............................................................................................................................. 4
2.1.2 DataNode ............................................................................................................................... 5
2.2 MAPREDUCE ..................................................................................................................................... 5
2.3 文件操作 ...................................................................................................................................... 7
2.4 LINUX 集群 ..................................................................................................................................... 8
三、
其它应用
................................................................................................................................ 8
四.
HADOOP
部署
........................................................................................................................... 9
4.1 测试机: ...................................................................................................................................... 9
4.2 准备工作: .................................................................................................................................. 9
4.3 SSH 设置 ...................................................................................................................................... 10
4.4 安装 JDK ...................................................................................................................................... 10
4.5 设置安装 HADOOP ....................................................................................................................... 11
4.5.1
编辑
conf/hadoop-env.sh
文件
........................................................................................... 11
4.5.2
配置
conf/core-site.xml ....................................................................................................... 11
4.5.3
配置
conf/hdfs-site.xml ....................................................................................................... 12
4.5.4
配置
conf/mapred-site.xml ................................................................................................. 13
4.5.5
配置
conf/masters
和
conf/slaves ....................................................................................... 14
4.6 格式化分布式文件系统 ............................................................................................................. 15
4.7 启动和关闭服务 ........................................................................................................................ 15
五.运行测试
................................................................................................................................ 16
5.1 WORDCOUND .................................................................................................................................. 16
5.2 TERASORT ....................................................................................................................................... 19
3
一.
hadoop
简介
一个分布式系统基础架构,由 Apache 基金会开发。用户可以在不了解分布式底层细节
的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop 实现了一个分
布式文件系统(Hadoop Distributed File System), 简 称 HDFS。HDFS 有着高容错性的特点,并
且设计用来部署在低廉的(low-cost)硬件上。而且它 提供高 传输率( high throughput)来访
问应用程序的数据,适合那些有着超大数据集(large data set)的 应 用 程 序 。HDFS 放宽了(relax)
POSIX 的要求(requirements)这 样可以流的形式访问(streaming access)文 件 系 统 中 的 数 据 。
Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存
储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是 MapReduce 引
擎,该引擎由 JobTrackers 和 TaskTrackers 组成。
图 1、Hadoop 集群的简化视图
1.1#hadoop
主要的特点
#
1 扩容能力(Scalable): 能 可 靠 地 ( reliably)存储和处理千兆字节(PB)数据。
2 成本低(Economical): 可 以 通 过 普 通 机 器 组 成 的 服 务 器 群 来 分 发 以 及 处 理 数 据 。 这
些服务器群总计可达数千个节点。
3 高效率(Efficient):通 过 分 发 数 据 ,hadoop 可以在数据所在的节点上并行地(parallel)
处理它们,这使得处理非常的快速。
4 可靠性(Reliable): hadoop 能自动地维护数据的多份复制,并且在任务失败后能自
动地重新部署(redeploy)计算任务。
剩余18页未读,继续阅读
资源评论
RichardSzwz
- 粉丝: 17
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功