没有合适的资源？快使用搜索试试~ 我知道了~

大数据原理与应用课程设计

需积分: 0 4 下载量 96 浏览量 2023-06-24 11:08:26 上传评论 3 收藏 6.74MB DOCX 举报

温馨提示

试读

34页

已经学习过大数据相关课程（比如入门级课程《大数据技术原理与应用》），了解大数据相关技术的基本概念与原理，了解Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理、R语言概念与应用等。本数据内容有步骤一：本地数据集上传到数据仓库Hive 步骤二：Hive数据分析步骤三：Hive、MySQL、HBase数据互导步骤四：利用R进行数据可视化分析

资源推荐

资源详情

资源评论

大数据课程综合实验案例

1.案例目的

1) 熟悉 Linux 系统、MySQL、Hadoop、HBase、Hive、R、Eclipse 等系统和软件的安

装和使用；

2) 了解大数据处理的基本流程；

3) 熟悉数据预处理方法；

4) 熟悉在不同类型数据库之间进行数据相互导入导出；

5) 熟悉使用 R 语言进行可视化分析；

6) 熟悉使用 Eclipse 编写 Java 程序操作 HBase、Hive 和 MySQL。

2.预备知识

需要案例使用者，已经学习过大数据相关课程（比如入门级课程《大数据技术原理与应

用》），了解大数据相关技术的基本概念与原理，了解 Windows 操作系统、Linux 操作系统、

大数据处理架构 Hadoop 的关键技术及其基本原理、列族数据库 HBase 概念及其原理、数

据仓库概念与原理、关系型数据库概念与原理、R 语言概念与应用等。

3.时间安排

建议一周左右完成案例内容

4.硬件要求

本案例可以在单机上完成，也可以在集群环境下完成。单机上完成本案例实验时，建议

计算机硬件配置为：50GB 以上硬盘，8GB 以上内存。

5.软件工具

1) Linux: Ubuntu16.04（或 18.04）

2) MySQL: 5.7.29

3) Hadoop: 3.1.3

4) HBase:2.2.2

5) Hive:3.1.2

6) R:3.2.3

7) Eclipse:3.8

6.数据集

见 PPT 或者资料。

7.案例任务

为了顺利完成本案例各项实验，需要完成以下系统和软件的安装：

1) 安装 Linux 系统：如果未安装，请参照“第 2 章 Linux 系统的安装和使用” 的相关内

容，完成 Linux 系统的安装。

2) 安装 Hadoop：如果未安装，请参照“第 3 章 Hadoop 的安装和使用” 的相关内容，

完成 Hadoop 的安装。

3) 安装 MySQL：如果未安装，请参照“附录 B：Linux 系统中的 MySQL 安装及常用操

作”的相关内容，完成 MySQL 的安装。

4) 安装 HBase：如果未安装，请参照“第 5 章 HBase 的安装和基础编程”中的相关内

容，完成 HBase 的安装。

5) 安装 Hive：如果未安装，请参照“第 8 章数据仓库 Hive 安装和使用”的相关内容，

完成 Hive 的安装。

6) 安装 Eclipse：如果未安装，请参照“第 2 章 Linux 系统的安装和使用”的相关内容，

在 Linux 系统的安装 Eclipse。

8.实验步骤概述

本案例共包含 4 个实验步骤：

步骤一：本地数据集上传到数据仓库 Hive

步骤二：Hive 数据分析

步骤三：Hive、MySQL、HBase 数据互导

步骤四：利用 R 进行数据可视化分析

9.报告形式

分别按照实验步骤形式，完成上述四个步骤，可结合 PPT 中代码和内容。

1. 本地数据集上传到数据仓库 Hive

（1）把数据集 user.zip 文件下载到 Linux 系统的“/home/hadoop/下载/”目录下面，把

user.zip 进行解压缩，需要首先建立一个用于运行本案例的目录 bigdatacase，运行 PPT 中代

码，粘贴代码以及运行结果截图。

（2）执行命令取出前面 10 条记录命令及其结果截图。

（3）删除文件某行记录（即字段名称）

（4）对字段进行预处理

（5）导入数据库相关代码和结果截图，（上传 HDFS 和 Hive 创建数据库、创建外部表、

查询数据）

2. Hive 数据分析（要求截屏代码和结果截图）

1) 简单查询分析

2) 查询条数统计分析

3) 关键字条件查询分析

4) 根据用户行为分析

5) 用户实时查询分析

3. Hive、MySQL、HBase 数据互导（按照 PPT 操作，代码截图和运行结果截图）

1) Hive 预操作

2) 使用 Java API 将数据从 Hive 导入 MySQL

3) 使用 HBase Java API 把数据从本地导入到 HBase 中

4.利用 R 进行数据可视化分析（按照 PPT 操作，代码截图和运行结果截图）

1) 安装 R

2) 安装依赖库

3) 可视化分析

5.完成本次课程设计过程中遇到的问题和解决过程。

6.完成本次课程设计的心得体会和感受。

10 报告模板

实验报告题目：

学号:

姓名：

日期:2023-6-23

实验环境:

实验内容与完成情况：

1. 本地数据集上传到数据仓库 Hive

（1）把数据集 user.zip 文件下载到 Linux 系统的“/home/hadoop/下载/”目录下面，

把 user.zip 进行解压缩，需要首先建立一个用于运行本案例的目录 bigdatacase，运行 PPT

中代码，粘贴代码以及运行结果截图。

$ cd /usr/local

$ ls

$ sudo mkdir bigdatacase

$ sudo chown -R hadoop:hadoop ./bigdatacase

$ cd bigdatacase

$ mkdir dataset

$ cd ~ //表示进入 hadoop 用户的目录

$ cd Dwonloads

$ ls

$ unzip user.zip -d /usr/local/bigdatacase/dataset

$ cd /usr/local/bigdatacase/dataset

$ ls

$ head -5 raw_user.csv

（2）删除文件某行记录（即字段名称）

$ cd /usr/local/bigdatacase/dataset

#下面删除 raw_user 中的第 1 行

$ sed -i '1d' raw_user.csv

#上面的 1d 表示删除第 1 行，同理，3d 表示删除第 3 行，nd 表示删除第 n 行

#下面删除 small_user 中的第 1 行

$ sed -i '1d' small_user.csv

#下面再用 head 命令去查看文件的前 5 行记录，就看不到字段名称这一行了

$ head -5 raw_user.csv

$ head -5 small_user.csv

（3）对字段进行预处理

$ cd /usr/local/bigdatacase/dataset

$ vim pre_deal.sh

$ cd /usr/local/bigdatacase/dataset

（4）执行命令取出前面 10 条记录命令及其结果截图。

$ bash ./pre_deal.sh small_user.csv user_table.txt

剩余33页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

Tender675

粉丝: 0
资源: 1

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

大数据原理与应用课程设计

大数据技术原理与应用课程思政研究与探索.zip

《大数据技术原理与应用》课程标准.pdf

大数据原理与技术课程实验报告完整版

大数据技术原理与应用课程建设经验分享.docx

《大数据技术原理及应用》课程报告

厦门大学大数据技术原理与应用

大数据技术原理与应用第二版（林子雨） 5个实验答案

大数据原理与技术课程实验报告完整版_大数据技术原理与应用实验报…报告-Hadoop文档类资源-CSDN文库(1).html

“大数据原理及应用”课程期末考核要求

大数据技术原理与应用课程标准.docx

大数据技术原理与应用课程标准.pdf

大数据技术 数据仓库原理设计与应用 全套PPT课件资源集合 共6个章节.rar

大数据技术 数据仓库原理设计与应用 第3章 数据仓库开发应用过程 （共48页）.ppt

《大数据技术原理与应用》课程标准.docx

教学大纲厦门大学-林子雨-大数据技术原理与应用

(完整word)大数据技术原理与应用课程标准.doc

大数据技术原理与应用 课程实验报告 熟悉HDFS常用操作 word文件

大数据技术 数据仓库原理设计与应用 第7章 数据仓库应用于管理（共32页）.ppt

大数据技术 数据仓库原理设计与应用 第5章 传统数据挖掘技术（共35页）.ppt

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

hadoop-3.3.4.tar.gz + winutils 安装环境

基于Hadoop的电影影评数据分析

基于大数据的音乐推荐系统（适合本科毕设）

基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计（源码下载）

适用于hadoop 3.3.5 3.3.6版本的winutils

数据科学导论实验报告 实验1：常用Linux操作和 Hadoop操作

淘宝用户行为数据集

中文官方教程_tableau_prep.pdf

hadoop-3.1.3.tar.gz

最新资源

大数据技术数据仓库原理设计与应用全套PPT课件资源集合共6个章节.rar

大数据技术数据仓库原理设计与应用第3章数据仓库开发应用过程（共48页）.ppt

大数据技术原理与应用课程实验报告熟悉HDFS常用操作 word文件

大数据技术数据仓库原理设计与应用第7章数据仓库应用于管理（共32页）.ppt

大数据技术数据仓库原理设计与应用第5章传统数据挖掘技术（共35页）.ppt

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

基于Hadoop+Spark招聘推荐可视化系统大数据项目毕业设计（源码下载）

数据科学导论实验报告实验1：常用Linux操作和 Hadoop操作