分布式计算
(Distributed Technology)
课程基本信息
课程编号:10021208
课程总学时:48
实验学时: 32 学时
课程性质:必修
课程属性:专业类
开设学期:第 5 学期
课程负责人:
课程团队:
授课语言:中文
适用专业:数据科学与大数据技术专业
对先修的要求:linux 操作系统,《面向对象的编程》
对后续的支撑:《企业级(特定领域)工程项目综合实训》
主撰人:
审核人:
大纲制定(修订)日期:
一、课程的教学理念、性质、目标和任务 �
本课程是数据科学与大数据技术专业的一门理论与实践相结合的专业核心课,既要掌握概
念和原理,又要实际动手编程。Spark 继承了 MapReduce 分布式计算的优点并改进了
MapReduce 计算模型延迟过高的缺陷,中间输出结果可以保存在内存中,大大减少了读写
HDFS 的次数,因此能更好地适用于数据挖掘与机器学习中需要迭代的算法。目前,Spark 在
企业中的运用越来越广泛,学习 Spark 分布式计算框架已然是进入大数据行业必不可少的一
步,通过本课程的学习使学生对 Spark 分布式计算框架有一个全面的理解,锻炼和提高学生
在大数据平台上专业知识的综合运用能力。
通过学习,使学生掌握 Spark 的基本概念和常用安装管理方法,掌握 Kafka,Redis 的相
关理论知识,培养学生的分布式计算与运维能力,分析和解决实际问题的能力,能够从事和
胜任分布式应用的构建与维护工作。
本课程的主要任务是培养学生达到以下要求:
(1) 使学生理解并掌握 Spark 和 Scala 的安装、IntelliJ IDEA 工具的使用。
(2) 理解并掌握 Scala 的基础语法,能够使用 Scala 开发 Spark 项目。
(3) 运用实验教学法,使学生掌握 Spark 及其相关组件的使用方法,提高学生的综
合实践能力和创新精神。为学生将来从事专业方面的实际工作奠定基础。
(4) 具有团队协作意识,理解开发团队中的角色、分工与责任,并掌握企业项目开