《数据可视化技术》期末大作业
课程名称 数据可视化技术
题目名称 题目一
学生学院 计算机学院
专业班级
学 号
学生姓名
指导教师
2022 年 12 月 1 日
目录
一、 题目.....................................................................3
二、 数据.....................................................................3
1、 数据来源..............................................................3
2、 数据内容..............................................................3
3、 数据处理..............................................................4
①、数据清洗..........................................................4
②、数据筛选..........................................................5
③、数据提取..........................................................5
三、 可视化工具...............................................................7
四、 可视化实现过程及方案.....................................................7
1、 可视化实现过程........................................................8
①、导入数据并进行规范化..............................................8
②、数据连接与整理....................................................8
③、数据预处理........................................................9
④、设置相关计算字段、参数...........................................10
2、 可视化方案...........................................................10
①、外国电影数据可视化方案...........................................10
②、中国电影数据可视化方案...........................................11
五、 可视化结果..............................................................11
1、 外国电影数据可视化结果...............................................11
①、外国电影类型随时间变化的趋势可视化...............................11
②、外国不同类型电影数量和占比情况可视化.............................12
③、外国电影 2008-2016 年各类型电影占比变化可视化.....................13
④、外国不同类型电影平均票房可视化...................................14
⑤、外国电影平均票房排名前 15 名的导演可视化..........................15
⑥、外国电影票房和电影预算、受欢迎程度,评分人数回归分析可视化.......15
⑦、外国电影不同月份或不同星期上映数量和票房情况可视化...............17
⑧、外国电影不同年代及不同类型评分情况可视化.........................18
⑨、外国电影评分与其他特征回归分析可视化.............................19
⑩、外国各类型电影利润情况可视化.....................................20
2、 中国电影数据可视化结果...............................................20
①、中国电影类型频率情况可视化.......................................20
②、中国电影豆瓣评分和票房回归分析可视化.............................21
③、中国不同类型电影平均票房可视化...................................21
④、中国各季度上映电影数量和票房可视化...............................23
⑤、中国不同类型电影评分情况可视化...................................24
六、 总结....................................................................24
1、 电影类型分析.........................................................24
2、 电影票房分析.........................................................24
3、 电影档期分析.........................................................25
4、 观众评价分析.........................................................25
一、题目
从网络上下载一组数据(自行获取),选择一种可视化工具(Excel、
Tableau、Matlab,Echarts 等),设计一种可视化方案实现该数据的可视化,并
做适当的数据分析(或挖掘)。
二、数据
1、数据来源
①、TMDB 5000 Movie Dataset:该数据来源于 kaggle 上的 TMDB 5000
Movie Dataset 数据集,收录了美国地区 1916-2017 年近 5000 部电影的数据,包
含预算、导演、票房,电影评分等信息。
下载地址:https://www.kaggle.com/tmdb/tmdb-movie-metadata
②、豆瓣电影数据:该数据是我自己整理的,收录了豆瓣电影 1922-2022 年
近 550 部电影的数据,包含评分人数、电影评分、票房,产地等信息。
2、数据内容
①、TMDB 5000 Movie Dataset 原始数据集包含 2 个文件:tmdb_5000_movies:
电影基本信息表,包含 20 个变量;tmdb_5000_credits:演职员信息表,包含 4
个变量。两个数据文件的相关数据字段如下:
tmdb_5000_movies.csv
budget
预算
production_countries
制作国家
genres
类型
release_date
发行日期
homepage
主页
revenue
票房
id
ID
runtime
时长
keywords
关键字
spoken_languages
语言
original_language
原本语言
status
状态
original_title
原标题
tagline
标语
overview
概述
title
标题
popularity
受欢迎程度
vote_average
评分均值
production_companies
制作公司
vote_count
评分人数
tmdb_5000_credits.csv
movie_id
ID
title
标题
cast
演员
crew
工作人员
②、tmdb_5000_movies 和 tmdb_5000_credits 数据表部分内容展示,如下图
所示:
③、豆瓣电影数据表部分内容展示,如下图所示:
3、数据处理
①、数据清洗
a、对于 tmdb_5000_movie 表,删除 tmdb_5000_movie 中不需要分析的列
homepage(主页)、original_language(原本语言)、keywords(关键字)、overview(概
述)、spoken_languages(语言)、status(状态),tagline(标语)。
b 、 对 于 tmdb_5000_movie 表 , 删 除 revenue( 票 房 ) , budget( 预 算 ) 和
vote_count(评分人数)为 0 的数据,剩余数据 3227 行。
②、数据筛选
a、对于 tmdb_5000_movie 表,评分人数过低的电影,评分不具有统计意义,
这里筛选 vote_count(评分人数)大于等于 50 的数据,即删除 vote_count(评分
人数)小于 50 的数据,剩余 2961 行数据。
③、数据提取
a、对于 tmdb_5000_movie 表,从“genres”中提取出电影类别名称,先分
列,再使用 CONCATENATE 函数进行连接,过程如下图所示: