课程实验与课程设计内容与要求-20171

preview
需积分: 0 0 下载量 21 浏览量 更新于2022-08-04 收藏 302KB PDF 举报
【课程实验与课程设计内容与要求-20171】是南京大学计算机科学与技术系的一门关于大数据处理与编程实践的课程。这门课程由黄宜华和顾荣主讲,得到了Google (北京)与Intel公司中国大学合作部精品课程计划的资助。课程的目标是让学生深入理解大数据处理,并通过实验和设计来实践MapReduce等大数据处理技术。 实验内容分为四个部分: 1. **单机Hadoop系统安装与WordCount实验**:学生需要在本地环境中搭建伪分布式Hadoop系统,运行并理解WordCount程序。实验报告需包含系统安装情况、实验数据说明、作业运行状态和输出结果的截图,以及实验体会。 2. **倒排索引实验**:学生需实现带词频属性的文档倒排索引算法,同时计算每个词语的平均提及次数。实验报告需详细说明设计思路、算法设计、程序结构,以及性能分析。 3. **HBase与Hive实验**:在本地安装HBase和Hive,用HBase存储倒排索引信息,通过Java程序读取并保存到本地,再使用Hive进行数据导入、查询操作。报告要求包含实验过程、输出结果和体会。 4. **社交网络图三角形计数实验**:处理社交网络关系图,转换为无向图并计算所有三角形的数量。此实验需要编写多个MapReduce Job,实验报告需涵盖设计思路、算法设计、实验结果分析和性能评估。 在整个课程中,MapReduce作为主要的处理工具,用于解决大规模数据的并行计算问题。WordCount是MapReduce的经典示例,用于统计文本中单词的频率;倒排索引则展示了MapReduce在文本处理和搜索引擎中的应用;HBase和Hive的使用让学生了解NoSQL数据库和SQL查询在大数据环境中的作用;三角形计数实验则涉及图论和复杂数据结构在大数据分析中的应用。 通过这些实验,学生不仅能掌握Hadoop生态系统的基本组件,还能了解如何使用MapReduce解决实际问题,以及如何利用HBase和Hive进行数据存储和分析。实验报告的撰写则旨在锻炼学生的文档编写能力和对技术的理解深度。