MapReduce开发案例资源-CSDN文库

共10个文件

xml：5个

java：3个

properties：1个

hadoop

MapRed

hdfs

需积分: 50 51 浏览量 2019-03-07 10:26:05 上传评论 4 收藏 11KB ZIP 举报

在IT行业中，Hadoop MapReduce是一种分布式计算框架，主要用于处理和存储海量数据。这个开发案例是针对初学者设计的，旨在帮助理解MapReduce的基本工作原理和编程模型。在这个项目中，作者实现了一个简单的MapReduce程序，并对初始代码进行了优化。 MapReduce的核心思想是将大任务分解为小任务并行处理，然后将结果合并。它由两个主要阶段组成：Map阶段和Reduce阶段。在Map阶段，原始数据被分割成多个块，并分配给集群中的各个节点进行处理。每个节点上的Mapper函数接收键值对作为输入，进行必要的计算，然后生成新的中间键值对。Reduce阶段则负责收集Map阶段产生的中间结果，对相同键的值进行聚合操作，最终输出最终结果。在这个"MapReduce开发案例"中，作者可能实现了以下关键步骤： 1. **设置输入和输出路径**：在MapReduce程序的初始化阶段，需要指定输入数据文件的路径（通常是HDFS中的一个目录）以及预期输出结果的路径。 2. **编写Mapper**：Mapper类包含map()方法，这是处理输入数据的地方。每个输入键值对都会调用一次map()方法，生成新的中间键值对。在这个例子中，优化可能包括更高效的键值解析、错误处理或者逻辑优化。 3. **编写Reducer**：Reducer类包含reduce()方法，它接收相同中间键的所有值，进行聚合操作。优化可能涉及减少不必要的迭代次数，优化内存使用或改进并行化策略。 4. **配置和运行Job**：创建一个JobConf实例，设置MapReduce作业的相关参数，如输入输出格式、Mapper和Reducer类等，然后提交作业到Hadoop集群执行。 5. **处理输出**：MapReduce完成后，结果会被写入到HDFS的指定路径下。在这个案例中，作者提醒最后要加上`fs.close()`来确保文件系统的连接关闭，这是一个良好的编程实践，防止资源泄漏。 6. **标签相关性**："hadoop"是指整个Hadoop生态系统，"MapRed"代表MapReduce框架，而"hdfs"是Hadoop Distributed File System，它们共同构成了大数据处理的基础。 7. **文件名"examplemr"**：这可能是示例MapReduce程序的名称，包含了Mapper和Reducer类的源代码，或者是整个项目目录的名称，其中可能包含了配置文件、测试数据等。通过这个案例，学习者可以深入理解MapReduce的编程模型，包括如何处理输入输出、如何编写Mapper和Reducer，以及如何在Hadoop环境中提交和运行作业。同时，优化经验对于提升程序性能和稳定性至关重要。对于新手来说，这是一个很好的起点，而对于有经验的开发者，这可以作为一个检查和学习他人优化技巧的机会。

资源推荐

资源详情

资源评论

收起资源包目录

examplemr.zip （10个子文件）

examplemr

examplemr.iml 81B

src

test

java

main

resources

log4j.properties 334B

java

com

bigdata

hadoop

WordCountReducer.java 943B

WordCountMapper.java 1KB

WordCountDriver.java 2KB

.idea

misc.xml 526B

compiler.xml 542B

workspace.xml 20KB

encodings.xml 237B

pom.xml 2KB

package com.bigdata.hadoop.mr; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.slf4j.LoggerFactory; import org.slf4j.Logger; /** * Created by daoyao */ public class WordCountDriver { public static void main(String[] args) throws Exception { Logger logger = LoggerFactory.getLogger(WordCountDriver.class); /** * 添加 conf.set("mapreduce.framework.name","local"); 之后 * 可以在把路径填写为本地路径进行执行 */ String output = "/wordcount/output"; String intput = "/wordcount/inpout"; // 通过 Job 来封装本次 mr 的相关信息 Configuration conf = new Configuration(); // conf.set("mapreduce.framework.name","local"); Job job = Job.getInstance(conf); // 指定本次 mr job jar 包主类 job.setJarByClass(WordCountDriver.class); // 指定 mapper reducer 分别是什么 job.setMapperClass(WordCountMapper.class); job.setReducerClass(WordCountReducer.class); // 设置 mapper 阶段的输出k v 类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 设置 reducer 阶段的输出k v 类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileSystem fs = FileSystem.get(conf); if (!fs.exists(new Path(intput))){ logger.info("不存在input目录"); } FileInputFormat.setInputPaths(job,intput); if (fs.exists(new Path(output))){ logger.info("已存在output目录正在删除........"); fs.delete(new Path(output), true); } FileOutputFormat.setOutputPath(job,new Path(output)); boolean b = job.waitForCompletion(true); System.exit(b?0:1); } }

评论收藏

内容反馈