适用专业:数据科学与大数据技术及相关专业
适用年级:本科四年级
《大数据技术》是数据科学与大数据技术专业以及讣算机科学与技术、软件工程、网络 工
程及物联网等相关专业的专业基础课。
2. 掌握大数据分布式存储和并行讣算的思想,能够构建大数据 Hadoop 平台。
3. 理解 HDFS、HBase. Hive、Spark 的工作原理、掌握其基本操作。
4. 能够编写简单的大数据 MapReduce 程序。
1. 大数据基础。着重介绍大数据基本概念,大数据的 4V 特征及在其应用,大数据框架 体系,
大数据采集与预处理技术、数据存储和管理技术、数据分析与挖掘技术、数据可视化 等技术;大数
据并行计算框架 Hadoop 平台及其核心组件。
2. 大数据存储与管理。着重介绍大数据存储与管理的基本概念和技术,大数据数据类型, 大
数分布式系统基础理论,NoSQL 数据库,分布式存储技术、虚拟化技术和云存储技术;大 数据分
布式文件系统 HDFS,包括 HDFS 的设计特点,体系结构和工作组件;大数据分布式数 据库系统
HBase,包括 HBase 列式数据库的逻辑模型和物理模型,HBase 体系结构及其工作原 理;大数据分
布式数据仓库系统 Hive,包括 Hive 的工作原理和执行流程、Hive 的数据类型 与数据模型,以及 Hive
主要访问接口等。
3. 大数据釆集与预处理。着重介绍大数据采集与预处理相关技术,包括数据抽取、转换和加
载技术,数据爬虫技术、数据清理、数据集成、数据变换和数据归约的方法和技术;大数据采集工
具,包括Sqoop 关系型大数据采集工具,Flume 日志大数据采集工具和分布式大 数据 Nutch 爬虫系
统。
4. 大数据分析与挖掘。着重介绍大数据计算模式,包括大数据批处理、大数据查询分析 计算、
大数据流计算、大数据迭代计算、大数据图讣算;大数据 MapReduce 计算模型、模型 框架和数据
处理过程,以及 MapReduce 主要编程接口;大数据 Spark II'算模型,包括 Spark 的工作流程与运行