mapreducewc单词计数自定义分区自定义排序实现

共29个文件

class：13个

java：13个

prefs：1个

需积分: 50 26 浏览量 2017-09-07 11:18:25 上传评论 1 收藏 22KB RAR 举报

在MapReduce框架中，"WordCount"是一个经典的例子，用于演示如何处理大数据并进行简单的统计。这个任务的主要目标是计算文本文件中每个单词出现的次数。在这个特定的案例中，我们不仅实现了基本的WordCount功能，还扩展了MapReduce的能力，通过自定义分区和自定义排序来优化数据处理流程。基础的`WordCount`实现，通常包含以下四个步骤： 1. **Map阶段**：Mapper接收输入行，将每一行分割成单词，并为每个单词生成键值对 `(word, 1)`。 2. **Shuffle阶段**：MapReduce框架按照键（这里是单词）对输出进行分区和排序，将相同键的记录聚集在一起。 3. **Reduce阶段**：Reducer接收到所有相同键的记录，将它们的值（这里是计数1）求和，生成 `(word, total_count)`。 4. **Output阶段**：最终结果输出到HDFS上，每个单词及其出现次数作为一个记录。接下来，我们来看看自定义分区（Custom Partitioner）和自定义排序（Custom Comparator）的实现： **自定义分区（Custom Partitioner）**：默认情况下，MapReduce会根据键的哈希值将数据均匀地分发到不同的Reducer上。但在某些场景下，我们可能希望基于键的某种特性来决定其应该被哪个Reducer处理。例如，在这个案例中的`com.ellis.mr2`，可能实现了根据单词的第一个字母进行分区，这样相同首字母的单词会被发送到同一台机器，从而可能减少网络传输和提高效率。 **自定义排序（Custom Comparator）**： MapReduce的默认排序是基于键的自然顺序，但`com.ellis.mr3`提供了自定义比较器的实现，允许我们按特定规则对键进行排序。这可以用于更复杂的需求，比如按照单词长度排序，或者根据特定的业务逻辑对数据进行优先处理。为了实现这些自定义功能，我们需要继承`Partitioner`和`Comparator`接口，重写其中的方法。在`Partitioner`中，我们将覆盖`getPartition()`方法，而在`Comparator`中，我们将覆盖`compare()`方法。然后在`WordCount`的主类中，我们需要指定我们的自定义类作为Partitioner和Comparator。这个案例展示了MapReduce的灵活性，它可以通过自定义分区和排序策略来适应各种复杂的计算需求。这不仅有助于优化性能，还可以解决特定问题，如处理倾斜的数据分布或实现特定的输出顺序。通过深入理解并掌握这些高级特性，开发者可以更好地驾驭大数据处理的任务。

资源推荐

资源详情

资源评论

收起资源包目录

mr-wc-partitioner-udfsort.rar （29个子文件）

hadoop

.project 382B

bin

com

ellis

mr1

PhoneMapper.class 2KB

FlowBean.class 2KB

PhoneDriver.class 2KB

PhoneReducer.class 2KB

mr3

PhoneMapper.class 2KB

FlowBean.class 2KB

PhoneDriver.class 2KB

PhoneReducer.class 2KB

mr2

partitioner

ProvincePartioner.class 2KB

PhoneMapper.class 2KB

FlowBean.class 2KB

PhoneDriver.class 2KB

PhoneReducer.class 2KB

.settings

org.eclipse.jdt.core.prefs 598B

src

com

ellis

mr1

PhoneReducer.java 620B

FlowBean.java 1KB

PhoneMapper.java 1023B

PhoneDriver.java 1KB

mr3

PhoneReducer.java 414B

FlowBean.java 2KB

PhoneMapper.java 1KB

PhoneDriver.java 1KB

mr2

partitioner

PhoneReducer.java 632B

FlowBean.java 1KB

PhoneMapper.java 637B

ProvincePartioner.java 684B

PhoneDriver.java 2KB

.classpath 376B

package com.ellis.mr3; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Writable; import org.apache.hadoop.io.WritableComparable; /** * 自定义排序需要根据上一次结果进行排序，上一次结果的reduce输入为一个文件，不然只能做到局部排序。 * * @author wxz * */ public class FlowBean implements WritableComparable<FlowBean>{ private long upFlow; private long dFlow; private long sumFlow; public FlowBean(){} public FlowBean(long upFlow, long dFlow) { this.upFlow = upFlow; this.dFlow = dFlow; this.sumFlow = upFlow + dFlow; } public void set(long upFlow, long dFlow,long sumFlow) { this.upFlow = upFlow; this.dFlow = dFlow; this.sumFlow = sumFlow; } /** * 序列化 * @param out * @throws IOException */ @Override public void write(DataOutput out) throws IOException { out.writeLong(upFlow); out.writeLong(dFlow); out.writeLong(sumFlow); } /** * 反序列化 * @param in * @throws IOException */ @Override public void readFields(DataInput in) throws IOException { upFlow = in.readLong(); dFlow = in.readLong(); sumFlow = in.readLong(); } /** * 自定义排序，根据总流量排序 */ @Override public int compareTo(FlowBean o) { return this.sumFlow > o.getSumFlow() ? 1 : -1; } public long getUpFlow() { return upFlow; } public void setUpFlow(long upFlow) { this.upFlow = upFlow; } public long getdFlow() { return dFlow; } public void setdFlow(long dFlow) { this.dFlow = dFlow; } public long getSumFlow() { return sumFlow; } public void setSumFlow(long sumFlow) { this.sumFlow = sumFlow; } @Override public String toString() { return "" + upFlow + "\t" + dFlow + "\t" + sumFlow; } }

评论收藏

内容反馈