
《大数据内存分析与计算》课程设计报告
设计题目: 基于 S park 的 TMDB 电影数据分析
专 业: 数据科学与大数据技术
指导教师: ***********
学 号: ***********
姓 名: ***********
同组人员: ***********

《大数据内存分析与计算》课程设计报告 目录
目录
1 设计目的.........................................................................................................................................1
1.1 设计背景..............................................................................................................................1
1.2 设计意义..............................................................................................................................1
2 系统分析.........................................................................................................................................2
2.1环境介绍...............................................................................................................................2
2.1.1软件环境....................................................................................................................2
2.1.2硬件环境....................................................................................................................2
2.1.3系统设计原则............................................................................................................2
2.2框架介绍及工作过程...........................................................................................................2
3 概要设计.........................................................................................................................................3
3.1 概要描述..............................................................................................................................3
3.2 概要设计分析......................................................................................................................3
4 详细设计.........................................................................................................................................5
4.1 数据预处理..........................................................................................................................5
4.2 数据分析..............................................................................................................................7
4.2.1 数据导入...................................................................................................................7
4.2.2 数据分析...................................................................................................................8
4.3 可视化方法........................................................................................................................13
4.3.1 可视化方法设计......................................................................................................13
4.3.2 可视化结果展示......................................................................................................14
总结..................................................................................................................................................20
参考文献..........................................................................................................................................21

《大数据内存分析与计算》课程设计报告 第一章 设计目的
1 设计目的
1.1 设计背景
由于Internet具有信息传输的开放性信息交流的双向性,以及信息覆盖的广泛
性等特点,网络中的信息量以指数规律迅速扩展和增加,网络上的信息过载和信息
迷航问题日益严重。解决这些问题的关键在于将Internet从被动接受浏览者的请求
转化为主动感知浏览者的信息需求,实现网络系统对浏览者的主动信息服务为了给
人们提供满意的信息和服务,推荐技术应运而生,成为目前众多学者和网络用户关
心的核心技术。推荐系统通过预测用户对信息资源的喜好程度来进行信息过滤,根
据用户具体需求通过协同过滤等技术进行个性化推荐根据这一基本原理,推荐系统
产生了各种不同算法在众多推荐算法中,协同过滤推荐是迄今为止最为成功也是应
用最广泛的个性化推荐技术协同过滤的概念被广泛应用于各个领域。
1.2 设计意义
随着互联网的发展和移动终端的迅速普及,人们的生活质量得到了极大的提高
网络山供用户观看的电影数量庞大、类型多样,但是用户需要花费大量的时间寻找
感兴趣的电影,导致电影资源的利用率过低。电影推荐系统是美国明尼苏达大学计
算机科学与工程学院的项目组创办的,是一个非商业性质的、以研究为目的的实验
性站点。电影推荐系统注要使用协同过滤和关联规则相结合的技术,向用户推荐他
们感兴趣的电影。个性化推荐技术可以从海量信息中挖掘出有价值的信息,并向用
户提供个性化服务,可以很好的解决电影资源利用率低的问题。
1

《大数据内存分析与计算》课程设计报告 第二章 系统分析
2 系统分析
2.1环境介绍
2.1.1软件环境
本次作业使用的环境和软件如下:
(1)Windows操作系统:Windows 10
(2)Python:3.6.4
(3)Hadoop:3.1.3
(4)Spark:2.2.2
(5)Bottle:v0.12.19
2.1.2硬件环境
高性能的电子计算机、大容量的存贮装置,个人电脑(终端)以及联结起来的
网线等,组成信息资源共享的计算机网络等等。
2.1.3系统设计原则
1) 系统运行安全可靠,稳定性好;
2) 系统的可管理性和可维护性好;
3) 系统展示界面友好美观,操作简便易行,尽量直观的展示数据;
4)数据具有规范性,整体性,方便数据之间的比较分析;
2.2框架介绍及工作过程
Bottle是一个快速、简洁、轻量级的基于WSIG的微型Web框架,此框架除了
Python的标准库外,不依赖任何其他模块。安装方法是,打开cmd终端,执行如
下命令:
> install python-pip
> pip install bottle
至此,环境搭建过程结束。
2

《大数据内存分析与计算》课程设计报告 第三章 概要分析
3 概要设计
3.1 概要描述
本次项目使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-
metadata 电影数据集,该数据集包含大约 5000 部电影的相关数据。本次实验
使用数据集中有关电影的数据表 tmdb_5000_movies.csv 进行实验。
3.2 概要设计分析
本次设计分为三大部分:数据预处理,数据分析和可视化展示。
数据预处理中对数据进行空值的去除已经错误值的纠改。
数据分析从概览和关系两个方面展开:
概览中包含:1.TMDb电影中的体裁分布;2.前100个常见关键词;3.TMDb
中最常见的10种预算数;4.TMDb中最常见电影时长 (只展示电影数大于100的时
长);5.生产电影最多的10大公司;6. TMDb 中的10大电影语言;
关系中包含:1.预算与评价的关系;2.发行时间与评价的关系;3.流行度和评
价的关系;4.公司生产的电影平均分和数量的关系;5.电影预算和营收的关系。
可视化展示对数据分析的每个模块只做了对应的可视化图表进行展示。
整个项目概要展示如图3.1:
3
- 1
- 2
- 3
- 4
- 5
- 6
前往页