课程实验与课程设计内容与要求-20171
需积分: 0 21 浏览量
更新于2022-08-04
收藏 302KB PDF 举报
【课程实验与课程设计内容与要求-20171】是南京大学计算机科学与技术系的一门关于大数据处理与编程实践的课程。这门课程由黄宜华和顾荣主讲,得到了Google (北京)与Intel公司中国大学合作部精品课程计划的资助。课程的目标是让学生深入理解大数据处理,并通过实验和设计来实践MapReduce等大数据处理技术。
实验内容分为四个部分:
1. **单机Hadoop系统安装与WordCount实验**:学生需要在本地环境中搭建伪分布式Hadoop系统,运行并理解WordCount程序。实验报告需包含系统安装情况、实验数据说明、作业运行状态和输出结果的截图,以及实验体会。
2. **倒排索引实验**:学生需实现带词频属性的文档倒排索引算法,同时计算每个词语的平均提及次数。实验报告需详细说明设计思路、算法设计、程序结构,以及性能分析。
3. **HBase与Hive实验**:在本地安装HBase和Hive,用HBase存储倒排索引信息,通过Java程序读取并保存到本地,再使用Hive进行数据导入、查询操作。报告要求包含实验过程、输出结果和体会。
4. **社交网络图三角形计数实验**:处理社交网络关系图,转换为无向图并计算所有三角形的数量。此实验需要编写多个MapReduce Job,实验报告需涵盖设计思路、算法设计、实验结果分析和性能评估。
在整个课程中,MapReduce作为主要的处理工具,用于解决大规模数据的并行计算问题。WordCount是MapReduce的经典示例,用于统计文本中单词的频率;倒排索引则展示了MapReduce在文本处理和搜索引擎中的应用;HBase和Hive的使用让学生了解NoSQL数据库和SQL查询在大数据环境中的作用;三角形计数实验则涉及图论和复杂数据结构在大数据分析中的应用。
通过这些实验,学生不仅能掌握Hadoop生态系统的基本组件,还能了解如何使用MapReduce解决实际问题,以及如何利用HBase和Hive进行数据存储和分析。实验报告的撰写则旨在锻炼学生的文档编写能力和对技术的理解深度。
Friday永不为奴
- 粉丝: 22
- 资源: 317
最新资源
- postgis-bundle-pg17-3.5.0x64.zip
- postgis-bundle-pg17x64-setup-3.5.0-2.exe
- 机械设计自动化立体仓库21可编辑非常好的设计图纸100%好用.zip
- postgis-bundle-pg96-2.5.0x32.zip
- 安卓项目源码Android中监听电话状态
- 语音数据集制作标记工具.zip
- postgis-bundle-pg96-3.2.3x64.zip
- 基于支持向量机(SVM)代理模型的,电机多目标优化 平均转剧,转剧脉动,迳向推力三个优化目标的R2都在0.99往上,具有较高的精度 优化算法采用的是多目标粒子群算法,PSO 优化软件:Matla
- postgis-bundle-pg96x32-setup-2.5.0-1.exe
- postgis-bundle-pg96x64-setup-3.2.3-1.exe
- IOS源码IOS应用源码之俄罗斯方块Demo
- 机械设计自动砌砖机step非常好的设计图纸100%好用.zip
- DNN多输出回归 基于深度神经网络(DNN)的多输出回归预测(多输入多输出) 程序已经调试好,数据格式为excel(如下图),仅需根据你的输出个数修改outdim值即可 1、运行环境要求MATLAB版
- postgresql-9.6.24.tar.bz2
- postgresql-10.23.tar.bz2
- 这是一个faster-rcnn的keras实现的库,可以利用voc数据集格式的数据进行训练 .zip