没有合适的资源?快使用搜索试试~ 我知道了~
Apache_Hadoop入门第一步
需积分: 10 30 下载量 173 浏览量
2016-03-21
10:43:27
上传
评论
收藏 1.64MB DOC 举报
温馨提示
Apache_Hadoop入门第一步,很详细很好的Hadoop入门部署资料,与大家分享,下载后给个赞,谢谢!
资源推荐
资源详情
资源评论
Apache Hadoop 入门(一)
官方网站 hp://hadoop.apache.org/
1 Apache Hadoop 概述
Apache Hadoop 项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。
Apache Hadoop 软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据
集进行分布式处理。使用 Apache Hadoop 软件库,可以从单个服务器扩展到上千台服务器,
每台服务器都提供本地的计算后存储。Apache Hadoop 软件库不再依赖于硬件实现高可用
性,Apache Hadoop 软件库可以检测并处理应用层的失效,从而在计算机集群之上提供高
可用性服务。
2 Apache Hadoop 项目组成
2.1 Apache Hadoop 包括的子
项目
Hadoop Common:支撑其他子项目的通用工具;Hadoop Common 是一组支持 Hadoop 子
项目的工具,包括 FileSystem、RPC 后序列化库。
HDFS:提供对应用数据的大吞吐量访问的分布式文件系统; HDFS 是 Hadoop 应用使用的
主要存储系统。HDFS 创建数据块的多个副本,并将其在整个集群内的计算节点上进行分布式
存储,以支持可靠的、极其快速的计算。
Hadoop MapReduce:用于分布式处理计算机集群上的大数据集的软件框架; Hadoop
MapReduce 是一个编程模型后软件框架,用以编写在大规模计算节点的集群中并行快速处理
大量数据的应用。
2.2 其他相关项目
Avro:数据序列化系统;
Cassandra:可扩展的、多主(mul-master)的数据库,克服单点失效;
Chukwa:管理大型分布式系统的数据集合系统;
HBase:可扩展的、分布式的数据库,以大表实现对结构化数据的存储;
Hive:数据仓库基础设施,提供数据汇总(data summarization)和自主查询(ad hoc
querying);
Mahout:可扩展的机器学习和数据挖掘库;
Pig:用于并行计算的高层次数据流语言和执行框架
ZooKeeper:用于分布式应用的高性能协调服务
3 快速启动
3.1 Single Node Setup
3.1.1 下载 Hadoop发布包
3.1.2 确保 Ubuntu Linux 已经
安装了远程登录和远程镜像工具
(默认没有安装)
$ sudo apt-get install ssh
$ sudo apt-get install rsync
剩余10页未读,继续阅读
资源评论
大王算法
- 粉丝: 3w+
- 资源: 47
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 修改LATEX.pdf
- IMG_20241125_120800.jpg
- AI助手Copilot辅助Go+Flutter打造全栈式在线教育系统课程17章
- 2024下半年,CISSP官方10道练习题
- JD-Core是一个用JAVA编写的JAVA反编译器 .zip
- 时间复杂度与数据结构:算法效率的双重奏
- QT 简易项目 网络调试器(未实现连接唯一性) QT5.12.3环境 C++实现
- YOLOv3网络架构深度解析:关键特性与代码实现
- ACOUSTICECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK
- 深入解析:动态数据结构与静态数据结构的差异
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功