没有合适的资源?快使用搜索试试~ 我知道了~
Hadoop学习总结.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 182 浏览量
2022-07-06
22:57:07
上传
评论
收藏 483KB DOCX 举报
温馨提示
试读
7页
Hadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docxHadoop学习总结.docx
资源推荐
资源详情
资源评论
Hadoop 学习总结
一、 背景
随着信息时代脚步的加快,各类数据信息越来越多,海量数据的来源列举如下:
◎纽约证券交易所每天产生 1TB的交易数据。
◎Facebook 存储着约 100亿张照片,约 1PB 数据。
◎Ancestry.com,一个家谱网站,存储着 2.5PB数据。
◎The Internet Archive(互联网档案馆)存储着约 2PB 的数据,并以每月至少 20TB 的速
度增长。
◎瑞士日内瓦附近的大型强子对撞机每年产生约 15PB数据。
面对海量数据,如何存储和分析,从中获取有价值信息,变得十分重要。Hadoop 正是在这
样的背景下产生的,它提供了一个可靠的共享存储和分析系统。由于具备低成本和前所未有
的高扩展性,Hadoop已被公认为是新一代的大数据处理平台,就像 30年前的 SQL出现一样,
Hadoop 正带来了新一轮的数据革命。
二、Hadoop相关概念
1、Hadoop 简述
Hadoop是 Apache的一个分布式计算开源框架,它可以运行于大中型集群的廉价硬件设备上,
为应用程序提供了一组稳定可靠的接口。同时它是 Google 集群系统的一个开源项目总称。
底层是 Google 文件系统(GFS)。
基于 java 语言构建的 Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子
项目。在近十年中 Hadoop 已成为大数据革命的中心。
2、其子项目简述:
◎MapReduce 分布式数据处理模型和执行环境,运行于大型商用机集群。
◎HDFS 分布式文件系统,运行于大型商用机集群。
◎Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在 MapReduce和 HDFS
的集群上。
◎Hive 一个分布式、按列存储的数据仓库。Hive 管理 HDFS 中存储的数据,并提供基于 SQL
的查询语言(由运行时引擎翻译成 MapReduce 作业)用以查询数据。
◎ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper 提供分布式锁之类的基本服务
用于构建分布式应用。
资源评论
G11176593
- 粉丝: 6646
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功