没有合适的资源?快使用搜索试试~ 我知道了~
Hadoop本身是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的分布式架构 Hadoop提供了简单的编程模型能够对大量的数据进行分布式处理(The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.) Hadoop能够轻松的从一台服务器扩展到上千台服务器,并且每一台服务器都能够进行本地计算和存储(It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.) Hadoop本身提供了用于处理和探测异常的机制(Rather than rely on hardware to deliver high-availabi
资源推荐
资源详情
资源评论
简介
大数据简介
概述
大数据的说法从出现到现在,也经历了十多年时间的发展。而在这十几年的
发展过程中,非常多的机构、组织都试图对大数据做出过定义,例如:研究机构
Gartner 给出了这样的定义:"大数据"是需要新处理模式才能具有更强的决策
力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进
行捕捉、管理和处理的数据集合。
特征(6V)
经过十几年的发展,对大数据进行总结,总结出来如下特征:
1)Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起
始计量单位至少是 T、P(1024 个 T)、E(100 万个 T)或 Z(10 亿个 T)。到目前为
止,人类所生产的所有印刷材料(书本、杂志、报刊等)的数据量大约是 200PB,
而历史上全人类总共说过的话的数据量大约是 5EB。当前,典型个人计算机硬盘
的容量为 TB 量级,而一些大企业的数据量已经接近或者达到 EB 量级。
2)Variety:种类样式和来源多样化。包括结构化、半结构化和非结构化数
据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数
据对数据的处理能力提出了更高的要求。
3)Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着
互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,
如何结合业务逻辑并通过强大的机器算法来挖掘数据价值是大数据时代最需要
解决的问题。
4)Velocity:数据增长速度快,处理速度也快,时效性要求比较高。这是
大数据区分于传统数据挖掘的最显著特征。根据 IDC(Internet Data Center,
互联网数据中心)的"数字宇宙"的报告,到 2020 年,全球数据使用量将达到
35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
5)Veracity:数据的准确性和可信赖度,即数据的质量。随着网络的发展,
数据的准确性和可信赖度都越来越挑战数据的认知和发展。
6)Valence:大数据之间的连通性,指的是大数据各个产业、各个模块之间
的关联性。
7)随着大数据的发展,又增加了 Vitality(动态性)、Visualization(可
视化)、Validity(合法性)等。
Hadoop 简介
概述
图-1 Hadoop 图标
Hadoop 本身是由 Yahoo!公司开发的后来贡献给了 Apache 的一套开源的、
可靠的分布式架构
Hadoop 提供了简单的编程模型能够对大量的数据进行分布式处理(The
Apache Hadoop software library is a framework that allows for
the distributed processing of large data sets across clusters of
computers using simple programming models.)
Hadoop 能够轻松的从一台服务器扩展到上千台服务器,并且每一台服务器
都能够进行本地计算和存储(It is designed to scale up from single
servers to thousands of machines, each offering local
computation and storage.)
Hadoop 本身提供了用于处理和探测异常的机制(Rather than rely on
hardware to deliver high-availability, the library itself is
designed to detect and handle failures at the application layer)。
主流发行版本
经过多年发展,市面上产生了繁多的 Hadoop 版本,这些版本可以分为收费
版和免费版/社区版。其中使用的比较多的是 Apache、CDH 和 HDP 三大发行版。
Apache 版本:最原始(最基础)的版本,对于入门学习最好,可以让初学者
掌握更多的细节。
Cloudera 版本:
1)2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供
Hadoop 的商用解决方案,主要是包括支持、咨询服务、培训。在 2009 年,Hadoop
之父 Doug Cutting 也加盟 Cloudera 公司。
2)Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support。
CDH 是 Cloudera 提供的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容
性,安全性,稳定性上有所增强;Cloudera Manager 是集群的软件分发及管理
监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务
进行实时监控;Cloudera Support 即是对 Hadoop 的技术支持。
3)Cloudera 的标价为每年每个节点 4000 美元。
4)Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
Hortonworks Hadoop 版本:
1)2011 年 成 立 的 Hortonworks 是 雅 虎 与 硅 谷 风 投 公 司 Benchmark
Capital 合资组建。公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop
的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了
Hadoop80%的代码。雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric
Baldeschwieler 出任 Hortonworks 的首席执行官。
2)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同
样是 100%开源的产品,HDP 除常见的项目外还包括了 Ambari(一款开源的安装
和管理系统)。
3)HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源
的 Hive 中。Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。
Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。
4)Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache
Hadoop 能够在 包括 Window Server 和 Windows Azure 在内的 Microsoft
Windows 平台上本地运行。
5)定价以集群为基础,每 10 个节点每年为 12500 美元。
Hortonworks 被 Cloudera 收购,合并推出了新的商用版 Hadoop:CDP。
目前收费是 10000 美金/节点/每年。从 2021 年 1 月 31 日开始,之前所有的 CDH
和 HDP 都必须付费才能使用。
模块
截止到目前为止(2023 年 06 月 30 日),Hadoop 官网显示,一共包含了四大
模块:
1)Hadoop Common:公共模块,提供了 Hadoop 的一些基本 jar 包(The
common utilities that support the other Hadoop modules.)
2)Hadoop Distributed FileSystem(HDFS) :分布式文件存储系统(A
distributed file system that provides high-throughput access to
application data.)
3)Hadoop YARN:用于进行任务调度和资源管理的机制(A framework for
job scheduling and cluster resource management.)
4)Hadoop MapReduce : 基 于 YARN 的 分 布 式 计 算 系 统 (A YARN-based
system for parallel processing of large data sets.)
版本
Hadoop 发展到现在,一共有三大版本:
1)Hadoop1.X:最原始的版本,包含了 Common,HDFS 和 MapReduce 模块,
目前市面上已经停止流通;
2)Hadoop2.X:包含了 Common,HDFS,MapReduce 和 YARN 模块,后续的
高版本中还包含了 Ozone 模块。注意,Hadoop2.X 和 Hadoop1.X 不兼容;
3)Hadoop3.X:包含了 Common,HDFS,MapReduce,YARN 和 Ozone 模块,
和 Hadoop2.X 部分兼容。
需要注意的是,不同于其他的一些框架,除了 Hadoop1.x 已经停止维护和
使用,Hadoop2.X 和 Hadoop3.X 在官网均有维护和更新,且更新版本较为混乱。
所以在选择 Hadoop 版本的时候,需要考虑 Hadoop 版本和其他框架的兼容性问
剩余39页未读,继续阅读
资源评论
ZikH~
- 粉丝: 435
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功