WordCount是Hadoop自带的亦例程序之一,整个程序虽然简单却涵盖了 MapReduce 的最基本使用方法。一般我们学习一门程序设计语言,最开始上手的程序都是“HelloWorld”, 可以说 WordCount 就是学习掌握 Hadoop MapReduce 编程的“Hello World”。
WordCount的功能是统计输人文件(也可以是输入文件夹内的多个文件)中每个单词出现的次数。基本的解决思路也很直观,就是将输入的文件文本切分成单词,将其中相同的单词聚集在一起,统计其数量作为该单词的出现次数输出。