MapReduce之wordcount范例代码资源-CSDN文库

共22个文件

java：4个

class：4个

lst：4个

单词统计

MapReduce

Hadoop

需积分: 48 11 浏览量 2021-01-04 15:28:10 上传评论 1 收藏 17KB RAR 举报

MapReduce是Google提出的一种分布式计算模型，被广泛应用于大数据处理领域，特别是在Hadoop框架下。WordCount是MapReduce中的一个经典示例，它用于统计文本中各个单词出现的次数，简单明了地展示了MapReduce的核心理念和工作流程。在Hadoop环境中，MapReduce通过两个主要阶段来完成任务：Map阶段和Reduce阶段。我们来看Map阶段。在这个阶段，原始数据（例如，文本文件）被切分成多个小块（Block），并分配到集群的不同节点上。每个Map任务会处理分配给它的数据块，对其中的每一行进行处理。在WordCount的例子中，Map函数会读取一行文本，将每一行分割成单词，并为每个单词生成键值对，键是单词，值是1，表示该单词出现了一次。接着，这些键值对会经过Shuffle和Sort过程，即将所有相同键的值聚合在一起，并按照键排序，为Reduce阶段做好准备。这个过程由Hadoop框架自动完成，不需要程序员编写代码。然后，我们进入Reduce阶段。Reduce任务会接收到Map阶段输出的所有键值对，对于每个唯一的键（在这个例子中是每个不同的单词），它会将对应的值（出现次数）进行求和，从而得到单词的总出现次数。Reduce函数将结果输出，形成最终的单词统计结果。在Hadoop初学者接触MapReduce时，WordCount是一个理想的起点，因为它能直观地展示数据处理的分布式过程。通过编写和运行WordCount程序，开发者可以理解如何将计算任务分解并分布到集群上，以及如何在不同节点间交换数据。在实际的编程中，开发者通常会使用Java来实现MapReduce程序。对于WordCount，你需要创建一个Mapper类，实现map()方法，再创建一个Reducer类，实现reduce()方法。此外，还需要定义InputFormat和OutputFormat，指定输入数据的格式和输出数据的格式。以下是MapReduce WordCount程序的一个简化版Java代码示例： ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context ) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer itr = new StringTokenizer(line); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } } public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 这段代码中，`TokenizerMapper`实现了Map功能，将文本分割成单词，而`IntSumReducer`则实现了Reduce功能，对每个单词的出现次数进行求和。`main`方法用于设置Job配置，包括输入输出路径、Mapper和Reducer类等。运行这个程序，你需要提供输入文件的路径（例如，一个包含文本的目录）和输出文件的路径。Hadoop框架会自动处理数据的分发、计算和结果的聚合。 WordCount示例是学习MapReduce和Hadoop的关键步骤，它能帮助开发者理解分布式计算的基本原理，为更复杂的数据处理任务打下基础。通过实践这个例子，你可以深入理解Hadoop如何在大规模数据集上高效执行计算任务。

资源推荐

资源详情

资源评论