【免费】【MapReduce篇04】MapReduce之OutputFormat数据输出1_mapreduce中outputformat会有并发问题么资源-CSDN文库

需积分: 0 74 浏览量 2022-08-04 17:06:28 上传评论收藏 363KB PDF 举报

资源详情

资源评论

资源推荐

先知道是什么，再去了解为什么

MapReduce之OutputFormat数据输出

OutputFormat接口实现类

OutputFormat是 Mapreduce输出的基类，所有实现 Mapreduce输出都实现了OutputFormat接

口。下面我们介绍几种常见的 OutputFormat实现类。

文本输出TextoutputFormat默认的输出格式是 TextOutputFormat，它把每条记录写为文本

行。它的键和值可以是任意类型，因为textOutputFormat调用 toString方法把它们转换为字符串

SequenceFileoutputFormat将 SequenceFileOutput Format输出作为后续 MapReduce任务的

输入，这便是一种好的输出格式，因为它的格式紧凑，很容易被压缩。

自定义 OutputFormat根据用户需求，自定义实现输出。

自定义OutputFormat

1.使用场景

为了实现控制最终文件的输出路径和输出格式，可以自定义 OutputFormat。

例如：要在一个 MapReduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出

需求可以通过自定义 OutputFormat来实现。

2.自定义 OutputFormat步骤

（1）自定义一个类继承 FileOutputFormat

（2）改写Record writer，具体改写输出数据的方法write。

3.实际需求

过滤日志文件中，包含shuaiqi的字符串然后输出到output.log文件中，不包含shuaiqi的输出到

other.log中

OuputFormat代码

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

// 继承FileOutputFormat，规定输出泛型

public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable>{

@Override

public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext

job) throws IOException, InterruptedException {

// 创建一个RecordWriter,重写里面的write方法

return new FilterRecordWriter(job);

}

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论0

内容反馈

一曲歌长安

粉丝: 48
资源: 302

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip