教你如何查看API及使用hadoop新api编程_hadoop查看文件内容资源-CSDN文库

4星 · 超过85%的资源需积分: 10 65 浏览量 2014-07-31 09:35:44 上传评论收藏 488KB PDF 举报

### Hadoop新旧API对比及应用实践 #### 一、Hadoop API概述 Hadoop作为一个分布式计算框架，提供了丰富的API供开发者使用。随着版本的更新，Hadoop API也在不断演进，新旧API之间存在一定的差异。理解这些差异对于有效地进行大数据处理至关重要。 #### 二、旧API与新API的主要区别 ##### 1. **包结构的变化** - **旧API**：主要集中在`org.apache.hadoop.mapred`包内。 - **新API**：引入了`org.apache.hadoop.mapreduce`包，提供了一套更为简洁和强大的API接口。 ##### 2. **Job初始化方式的变化** - **旧API**：使用`JobConf`类来初始化Job。 ```java JobConf conf = new JobConf(BookCount.class); ``` - **新API**：采用`Configuration`和`Job`类来初始化Job。 ```java Configuration conf = new Configuration(); Job job = Job.getInstance(conf); ``` ##### 3. **数据类型的变化** - **旧API**：使用如`LongWritable`、`IntWritable`等数据类型。 - **新API**：支持更广泛的数据类型，包括自定义类型。 #### 三、实例分析：使用Hadoop旧API统计文件行数以下是一个使用Hadoop旧API统计文件行数的例子： ```java package bookCount; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.*; public class BookCount { public static Logger logger = Logger.getLogger(BookCount.class); public static void main(String[] args) throws IOException { PropertyConfigurator.configure("conf/log4j.properties"); logger = Logger.getLogger(BookCount.class); logger.info("BookCount starting"); System.setProperty("HADOOP_USER_NAME", "hduser"); JobConf conf = new JobConf(BookCount.class); conf.setJobName("bookCount_sample_job"); FileInputFormat.setInputPaths(conf, new Path("booklist.log")); FileOutputFormat.setOutputPath(conf, new Path("booklistResultDir")); conf.setMapperClass(BookCountMapper.class); conf.setReducerClass(BookCountReducer.class); conf.setOutputKeyClass(Text.class); conf.setOutputValueClass(IntWritable.class); JobClient.runJob(conf); } // Mapper and Reducer classes would be defined here... } ``` #### 四、实例分析：使用Hadoop新API统计文件行数同样地，我们也可以使用Hadoop新API实现同样的功能： ```java package bookCount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class BookCountNewAPI { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "bookCount_new_api"); job.setJarByClass(BookCountNewAPI.class); job.setMapperClass(BookCountNewAPIMapper.class); job.setReducerClass(BookCountNewAPIReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } // Mapper and Reducer classes would be defined here... } ``` #### 五、总结通过以上对比可以发现，新API相比旧API在设计上更加合理和灵活。新API不仅简化了Job的初始化过程，还提供了更强大的功能，比如更多的数据类型支持和更好的错误处理机制。此外，新API还更好地支持了并行任务的调度和管理，提高了系统的整体性能。在实际开发过程中，建议优先使用Hadoop的新API，以充分利用其优势，并确保代码的可维护性和扩展性。

资源推荐

资源详情

资源评论