没有合适的资源?快使用搜索试试~ 我知道了~
hadoop
资源推荐
资源详情
资源评论
郭专老师
猿课教育
Hadoop 大数据入门与实践
Hadoop 入门与实践
目录
Hadoop 入门与实践 ..................................................................................................................... 1
第一章 前言 ....................................................................................................................... 3
第二章 hadoop 简介 ............................................................................................................. 3
1. Hadoop 版本衍化历史 .............................................................................................. 3
2. Hadoop 生态圈 .......................................................................................................... 4
第三章 安装 hadoop 环境 .................................................................................................... 6
第四章 HDFS 文件系统 ..................................................................................................... 13
1. HDFS 特点: ............................................................................................................ 13
2. 不适用于 HDFS 的场景: ....................................................................................... 14
3. HDFS 体系架构 ........................................................................................................ 15
4. HDFS 数据块复制 .................................................................................................... 16
5. HDFS 读取和写入流程 ............................................................................................ 17
6. 操作 HDFS 的基本命令 ........................................................................................... 19
第五章 Mapreduce 计算框架 .......................................................................................... 21
1. MapReduce 编程模型 ............................................................................................. 21
2. MapReduce 执行流程 ............................................................................................. 23
3. MapReduce 数据本地化(Data-Local) ................................................................ 26
4. MapReduce 工作原理 ............................................................................................. 27
5. MapReduce 错误处理机制 ..................................................................................... 30
第六章 Zookeeper .............................................................................................................. 32
1. Zookeeper 数据模型 ............................................................................................... 33
2. Zookeeper 访问控制 ............................................................................................... 35
3. Zookeeper 应用场景 ............................................................................................... 36
第七章 HBase ....................................................................................................................... 37
1. Hbase 简介 ............................................................................................................... 37
2. Hbase 数据模型 ....................................................................................................... 39
3. Hbase 架构及基本组件 ........................................................................................... 41
4. Hbase 容错与恢复 ................................................................................................... 43
5. Hbase 基础操作 ....................................................................................................... 44
第八章 Hive .......................................................................................................................... 48
1. Hive 基础原理 .......................................................................................................... 48
2. Hive 基础操作 .......................................................................................................... 52
第九章 流式计算解决方案-Storm ...................................................................................... 59
1. Storm 特点 ............................................................................................................... 60
2. Storm 与 Hadoop 区别 ............................................................................................ 61
3. Storm 基本概念 ....................................................................................................... 63
4. Storm 系统架构 ....................................................................................................... 69
5. Storm 容错机制 ....................................................................................................... 71
6. 一个简单的 Storm 实现 .......................................................................................... 72
7. Storm 常用配置 ....................................................................................................... 73
第十章 数据挖掘——推荐系统 .......................................................................................... 74
1. 数据挖掘和机器学习概念 ...................................................................................... 75
2. 一个机器学习应用方向——推荐领域 ................................................................... 75
3. 推荐算法——基于内容的推荐方法 ....................................................................... 76
4. 推荐算法——基于协同过滤的推荐方法 ............................................................... 80
第一章 前言
出此书的目的就是为了帮助新人快速加入大数据行业,市面上有很多类似的书籍都是重
理论少实践,特别缺少一线企业实践经验的传授,而这个课程会让您少走弯路、快速入门和
实践,让您再最短时间内达到一个一线企业大数据工程师的能力标准,因为在课程整理和实
践安排上过滤掉很多用不上的知识,直接带领大家以最直接的方式掌握大数据使用方法。
作者在知名一线互联网公司从事大数据开发与管理多年,深知业界大数据公司一直对大
数据人才的渴望,同时也知道有很多的大数据爱好者想参与进这个朝阳行业,因为作者平时
也是需要参与大数据工程师的招聘与培养的,所以特别想通过一种方式,让广大的大数据爱
好者更好的与企业对接,让优秀的人才找到合适的企业,《 Hadoop 入门与实践》电子书是作
者根据多年从业经验整理的系列课程,希望让更多的大数据爱好者收益!
第二章 hadoop 简介
Hadoop 是一个由 Apache 基金会所开发的开源分布式系统基础架构。用户可以在不了
解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)
的可靠存储和处理。适合处理非结构化数据,包括 HDFS,MapReduce 基本组件。
1. Hadoop 版本衍化历史
由于 Hadoop 版本混乱多变对初级用户造成一定困扰,所以对其版本衍化历史有个大概
了解,有助于在实践过程中选择合适的 Hadoop 版本。
Apache Hadoop 版本分为分为 1.0 和 2.0 两代版本,我们将第一代 Hadoop 称为 Hadoop
1.0,第二代 Hadoop 称为 Hadoop 2.0。下图是 Apache Hadoop 的版本衍化史:
第一代 Hadoop 包含三个大版本,分别是 0.20.x,0.21.x 和 0.22.x,其中,0.20.x 最后演
化成 1.0.x,变成了稳定版。
第二代 Hadoop 包含两个版本,分别是 0.23.x 和 2.x,它们完全不同于 Hadoop 1.0,是
一套全新的架构,均包含 HDFS Federation 和 YARN 两个系统,相比于 0.23.x,2.x 增加了
NameNode HA 和 Wire-compatibility 两个重大特性。
Hadoop 遵从 Apache 开源协议,用户可以免费地任意使用和修改 Hadoop,也正因此,
市面上出现了很多 Hadoop 版本,其中比较出名的一是 Cloudera 公司的发行版,该版本称为
CDH(Cloudera Distribution Hadoop)。
截至目前为止,CDH 共有 4 个版本,其中,前两个已经不再更新,最近的两个,分别是
CDH3(在 Apache Hadoop 0.20.2 版本基础上演化而来的)和 CDH4 在 Apache Hadoop 2.0.0 版
本基础上演化而来的),分别对应 Apache 的 Hadoop 1.0 和 Hadoop 2.0。
2. Hadoop 生态圈
架构师和开发人员通常会使用一种软件工具,用于其特定的用途软件开发。例如,他们
可能会说,Tomcat 是 Apache Web 服务器,MySQL 是一个数据库工具。
然而,当提到 Hadoop 的时候,事情变得有点复杂。Hadoop 包括大量的工具,用来协同
工作。因此,Hadoop 可用于完成许多事情,以至于,人们常常根据他们使用的方式来定义
它。
对于一些人来说,Hadoop 是一个数据管理系统。他们认为 Hadoop 是数据分析的核心,
汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。对于其他人,
Hadoop 是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。
还有一些人认为 Hadoop 作为一个开源社区,主要为解决大数据的问题提供工具和软件。因
为 Hadoop 可以用来解决很多问题,所以很多人认为 Hadoop 是一个基本框架。
虽然 Hadoop 提供了这么多的功能,但是仍然应该把它归类为多个组件组成的 Hadoop
生态圈,这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。
剩余83页未读,继续阅读
资源评论
everysummer
- 粉丝: 4
- 资源: 12
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功