云计算技术实验报告七MapReduce数据统计
Linux,eclipse 本实验要求通过MapReduce程序实现数据统计,具体要求如下: 假设有一份简单的“个人通讯记录”的数据集,格式如下: 被叫号码,通话时间(秒) 13900000001,20 13900000008,126 …… 1)编写一个MapReduce程序,统计拨打同一被叫号码的总时长。 2)找出平均通话时间最长的被叫号码。
Linux,eclipse 本实验要求通过MapReduce程序实现数据统计,具体要求如下: 假设有一份简单的“个人通讯记录”的数据集,格式如下: 被叫号码,通话时间(秒) 13900000001,20 13900000008,126 …… 1)编写一个MapReduce程序,统计拨打同一被叫号码的总时长。 2)找出平均通话时间最长的被叫号码。
Linux,eclipse 本实验要求学生通过SequenceFile实现对多个小文件的封装。 要求如下: 1)使用随机数生成以(整数,字符串)为(key,Value)的文本文件,文件的大小内容任意,文件数量不少于100个; 2)使用SequenceFile对以上文件进行封装,生成一个独立文件,压缩格式任意; 3)实现以下的三种方式的查询: 3.1)给出文件名,可以从序列文件整体读取文件并存储到指定的位置; 3.2)给出某个整数的key,可以读取所有该key的数据,并给出所在文件的名称(可以输出到控制台); 3.3)给出文件名和整数的key,可以读取该文件中的对应key的数据(可以输出到控制台)。
Linux,eclipse 要求改写实验4的GetMerge程序,实现将云端多个文件压缩到单个文件下载到本地。 1)采用Gzip压缩方法,本地文件为Merger.gz; 2)云端文件需要超过2个文件。
Linux,eclipse 要求编程实现GetMerger功能,实现从云端(HDFS)中下载一个包含多个文件的路径(文件夹),将所有文件合并后保存到本地(GetMerge)。
Linux 按照步骤完成命令行方式下Hadoop MR程序的编辑,编译,运行过程。 1)编辑java文件 可以采用任意的文本工具编辑Java代码 2)编译javac (1)设置CLASSPATH (2)编译java文件 (3)打jar包 4)执行 bin/hadoop jar xxx.jar packagename.classname input output