【免费】hadoop3的讲义.rar资源-CSDN文库

共5个文件

docx：5个

easyhadoop

hadoop

需积分: 0 62 浏览量 2022-10-06 09:11:32 上传评论收藏 6.42MB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

hadoop3的讲义.rar （5个子文件）

hadoop3的讲义

04_大数据技术之Hadoop（Yarn）V3.6.docx 3.94MB

hadoop 50070 无法访问问题解决汇总.docx 26KB

02_大数据技术之Hadoop（HDFS）V3.6.docx 3.69MB

03_大数据技术之Hadoop（MapReduce）V3.6.docx 19.95MB

01_大数据技术之Hadoop（入门）V3.6.docx 6.13MB

www.ityouxin.com

大数据技术之 Hadoop（MapReduce）

作者：友信科创大数据研发部

版本：V3.6

第 1 章 MapReduce 概述

1.1 MapReduce 定义

MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析

应用”的核心框架。

MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的

分布式运算程序，并发运行在一个 Hadoop 集群上。

1.2 MapReduce 优缺点

1.2.1 优点

1）MapReduce 易于编程

它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量

廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一

样的。就是因为这个特点使得 MapReduce 编程变得非常流行。

2）良好的扩展性

当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

3）高容错性

MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高

的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，

不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。

4）适合 PB 级以上海量数据的离线处理

可以实现上千台服务器集群并发工作，提供数据处理能力。

1.2.2 缺点

1）不擅长实时计算

MapReduce 无法像 MySQL 一样，在毫秒或者秒级内返回结果。

www.ityouxin.com

2）不擅长流式计算

流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。

这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。

3）不擅长 DAG（有向无环图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，

MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，

会造成大量的磁盘 IO，导致性能非常的低下。

1.3 MapReduce 核心思想

（1）分布式的运算程序往往需要分成至少 2 个阶段。

（2）第一个阶段的 MapTask 并发实例，完全并行运行，互不相干。

（3）第二个阶段的 ReduceTask 并发实例互不相干，但是他们的数据依赖于上一个阶段

的所有 MapTask 并发实例的输出。

（4）MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段，如果用户的业

务逻辑非常复杂，那就只能多个 MapReduce 程序，串行运行。

总结：分析 WordCount 数据流走向深入理解 MapReduce 核心思想。

1.4 MapReduce 进程

一个完整的 MapReduce 程序在分布式运行时有三类实例进程：

（1）MrAppMaster：负责整个程序的过程调度及状态协调。

（2）MapTask：负责 Map 阶段的整个数据处理流程。

（3）ReduceTask：负责 Reduce 阶段的整个数据处理流程。

www.ityouxin.com

1.5 官方 WordCount 源码

采用反编译工具反编译源码，发现 WordCount 案例有 Map 类、Reduce 类和驱动类。且

数据的类型是 Hadoop 自身封装的序列化类型。

1.6 常用数据序列化类型

Java 类型

Hadoop Writable 类型

Boolean

BooleanWritable

Byte

ByteWritable

Int

IntWritable

Float

FloatWritable

Long

LongWritable

Double

DoubleWritable

String

Text

Map

MapWritable

Array

ArrayWritable

Null

NullWritable

1.7 MapReduce 编程规范

用户编写的程序分成三个部分：Mapper、Reducer 和 Driver。

www.ityouxin.com

1.8 WordCount 案例实操

1.8.1 本地测试

1）需求

在给定的文本文件中统计输出每一个单词出现的总次数

（1）输入数据

hello.txt

（2）期望输出数据

ityouxin 2

fengge 1

ss 2

hadoop 1

jiao 1

aa 2

youxin 1

2）需求分析

按照 MapReduce 编程规范，分别编写 Mapper，Reducer，Driver。

www.ityouxin.com

需求：统计一堆文件中单词出现的个数（WordCount案例）

3、Mapper

5、Driver

4、Reducer

// 3.1 将MapTask传给我们的文本

内容先转换成String

// 3.2 根据空格将这一行切分成单词

// 3.3 将单词输出为<单词，1>

// 4.1 汇总各个key的个数

// 4.2 输出该key的总次数

// 5.1 获取配置信息，获取job对象实例

// 5.3 关联Mapper/Reducer业务类

// 5.4 指定Mapper输出数据的kv类型

// 5.5 指定最终输出的数据的kv类型

// 5.6 指定job的输入原始文件所在目录

// 5.7 指定job的输出结果所在目录

// 5.2 指定本程序的jar包所在的本地路径

// 5.8 提交作业

ityouxin ityouxin

ityouxin

ityouxin, 1

ityouxin, 2

1、输入数据

2、输出数据

ityouxin ityouxin

ss ss

cls cls

jiao

banzhang

xue

hadoop

ityouxin 2

banzhang1

cls 2

hadoop 1

jiao 1

ss 2

xue 1

3）环境准备

（1）创建 maven 工程，MapReduceDemo

（2）在 pom.xml 文件中添加如下依赖

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

</dependency>

</dependencies>

（2）在项目的 src/main/resources 目录下，新建一个文件，命名为“log4j.properties”，

在文件中填入。

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（3）创建包名：com.ityouxin.mapreduce.wordcount

4）编写程序

评论收藏

内容反馈

撸码的xiao摩羯

粉丝: 168
资源: 92

hadoop3的讲义.rar

评论0

最新资源

hadoop3的讲义.rar

评论0

spark3+hadoop3.rar

hadoop3.x的Windows依赖.rar

hadoop3.x盘地址及官方其他版本下载地址.rar

hadoop-3.1.0.rar windows 环境依赖

hadoop-2.6.1.rar win7编译

hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

hadoop2.7.3 hadoop.dll

hadoop2.6.0 hadoop.dll包括winutils.exe

hadoop-3.2.4.tar.gz

hadoop的winutils.exe及hadoop.dll文件

hadoop2.7.3 Winutils.exe hadoop.dll

Hadoop下载 hadoop-3.3.3.tar.gz

hadoop的hadoop.dll和winutils.exe下载

hadoop-2.7.4.tar.gz

hadoop-2.6.0.tar.gz.mds

hadoop的hadoop.dll和winutils.exe

hadoop-3.2.3.tar.gz

hadoop-2.7.1.tar.gz.zip

hadoop-2.8.5.rar

hadoop-2.5.2.tar.gz

hadoop-3.3.0.tar.gz

hadoop2.7.4 hadoop.dll包括winutils.exe

2023跨年代码（烟花+自定义文字+背景音乐+雪花+倒计时）

GB28181国标模拟终端，模拟国标监控摄像头，实现了注册、注销、目录、INVITE，BYE、KEEPLIVE、OPTION信令

MQTTBox，windows版本，本资源已被作者开源，开放免费下载，不收取积分

MicrosoftEdgeWebView2RuntimeInstallerx64-109.exe

淘宝天猫pc端代码全店隐藏技术，怎么屏蔽电脑端淘宝店铺首页所有宝贝商品链接，只有手机端才可以看到

[Altium Designer 19（中文版） 电子设计速成实战宝典][郑振宇 等]电子课件

\混合模型时间序列预测实战-讲了.rar

最新资源

[Altium Designer 19（中文版）电子设计速成实战宝典][郑振宇等]电子课件