# Python-TMDB-5000-MovieAnalysis
基于对TMDB-5000-MovieAnalysis数据集进行的一些数据分析以及建立了一个简单模型来对电影评分进行预测
# 一.简介
## 1.1数据集摘要
名称 TMDB 5000 Movie Dataset(TMDB 5000电影数据集)
特征简介 'budget', 'genres','homepage','id'
'keywords','original_language'
'original_title','overview'
'popularity','production_companies'
'production_countries','release_date'
'revenue','runtime','spoken_languages'
'status','tagline','title'
'vote_average','vote_count'
'movie_id','title','cast','crew'
记录数 4813
+ 分析目标
- 问题1:电影风格随时间的变化趋势
- 问题2:不同风格电影的收益能力和年份与什么类型的电影风格最相关
- 问题3:比较行业内Universal Pictures与Paramount Pictures两家巨头公司的业绩和各自的电影风格
- 问题4:票房收入与哪些因素最相关以及电影的关键字
- 问题5:各种电影类型所占的比例各是多少,其中占比最大的是什么类型
- 问题6:如何实现电影评分预测
- 问题7:如何使用Kmeans聚类对数据进行数据分析
+ 分析思路及方法
+ 1.提出要分析的问题
+ 2.浏览数据,理解数据
+ 3.数据清洗
+ 4.建立模型
+ 5.数据可视化
+ 6.对建模可视化后的数据形成数据报告分析
## 1.2数据简介
### 1.2.1 介绍数据集的概况
+ (1)数据来源:https://www.kaggle.com/tmdb/tmdb-movie-metadata
+ (2)数据属性:(如下配上一张属性的表)
![数据列名](https://github.com/Aoshika123/Python-TMDB-5000-MovieAnalysis/blob/master/吴清典_数据分析课程论文/分析绘图/数据列名.png);
+ (3)数据量:一共两个表格,每个表格中各有4813条数据
+ (4)基本统计特征:tmdb_5000_movies.csv表中共有20个变量,tmdb_5000_credits表中共有4个变量名。
### 1.2.2 描述分析目标
对于数据提出了四个问题(如下):
+ 问题1:电影风格随时间的变化趋势
+ 问题2:不同风格电影的收益能力和年份与什么类型的电影风格最相关
+ 问题3:比较行业内Universal Pictures与Paramount Pictures两家巨头公司的业绩
+ 问题4:票房收入与哪些因素最相关以及电影的关键字
+ 问题5:各种电影类型所占的比例各是多少,其中占比最大的是什么类型。
+ 问题6:如何实现电影评分预测
### 1.2.3分析手段和方法
+ 1.将下载后的数据读取出来后,理解数据后对数据进行处理。
+ 2.数据清洗(根据问题对数据进行一定程度上的修改)
+ 3.建立模型
+ 4.数据可视化
+ 5.形成数据分析报告
### 1.2.4阐述结论
+ 结论1:从上世纪90年代开始,整个电影市场呈现爆发式增长。其中,排名前五的戏剧类(Drama)、喜剧类(Comedy)、惊悚类(Thriller)、浪漫类(Romance)、动作类(Action)电影数量增长显著,排名前六至前九的类型增长相对比较缓慢。
+ 结论2:从图中可以看出不同类型的电影收益状况不同,其中又以动画类(Animation)和历史类(History)收益最高。年份与(Western)类型相关性最高,比其他类型的高出不少。
+ 结论3:Universal Pictrues总票房收入高于Paramount Pictures,两公司排名前九的电影风格通过饼图展示出来,两公司的电影份风格大致相同相差不多。
+ 结论4:电影评次与票房收入最相关,电影预算与票房收入高度相关,受欢迎度与评次高度相关,其他的因素与票房收入相关性相对较低。
+ 结论5:各种电影类型的占比比例如图所示,其中占比类型最大的是Drama。
+ 结论6:根据影片类型、导演和主演,对于待预测的影片,筛选出这3个因素与之相似程度最高的5部影片,计算它们的平均评分,作为待预测影片的评分。
+ 结论7:从数据集中挑选出‘popularity’和‘vote_count’数据使用Kmeans聚类来进行分析,分析结果可以根据图来显示出来。
# 二 数据处理
## 2.1数据处理环境
环境:win10+Anaconda3+Spyder+python3.6
## 2.2 数据读取
+ 1.先导入需要的包
+ 2.读取,查看数据
+ (1)使用pd.read_csv(‘data’)来读取数据
+ (2)打印print(movies.head())大致查看一下数据 print(movies.head())
+ (3)查看一下movies数据的列名 print(movies.columns)
+ (4)查看一下creditss数据的前五条数据 print(credits.head())
+ (5)查看一下creditss数据的列名 Print(Credits.columns)
+ (6)因为两个数据框中的title列重复,删除了credits中的title列
+ (7)因为movies中的id和credits中的movie_id列等同,所以合并数据,合并后根据需要提出的要求选择需要的数据并删掉一些不需要的数据,最后查看数据信息,字段数据量。
删除:Del credits[‘title’],合并:pd.merge(),删除不需要的数据:full.drop()
## 2.3 数据清洗
+ (1)查看合并后的数据哪有缺失值,找出缺失处并补充缺失值
-查找缺失:full.isnull().any()
填充数据:
full['release_date'] = full['release_date'].fillna('2014-06-01')
full['runtime'] = full['runtime'].fillna(94, limit=1)#limit=1,限制每次只填补一个值
full['runtime'] = full['runtime'].fillna(240, limit=1)
+ (2)将release_date列转换为日期类型pd.to_datetime()
+ (3)因为数据集中有json数据,所以需要解析json数据。
+ (4)根据所要分析的问题取出一些主演和导演的数据。
# 三 数据可视化
## 3.1问题一
### 问题1:电影风格随时间的变化趋势。
解决方法:
+ (1)先将所有的电影风格取出并去重,将年份的列取出,将风格属性按年份分组计算每组的和并降序排序,可视化出电影风格的数量。
![电影风格数量图](https://github.com/Aoshika123/Python-TMDB-5000-MovieAnalysis/blob/master/吴清典_数据分析课程论文/分析绘图/film%20genre%20by%20year.png)
+ (2)先将所有的电影风格TOP9筛选出来,然后可视化电影风格随时间变化的趋势(1960-2010年)
![TOP9File by year图](https://github.com/Aoshika123/Python-TMDB-5000-MovieAnalysis/blob/master/吴清典_数据分析课程论文/分析绘图/film%20count%20by%20year.png)
+ 问题一结论:从上世纪90年代开始,整个电影市场呈现爆发式增长。其中,排名前五的戏剧类(Drama)、喜剧类(Comedy)、惊悚类(Thriller)、浪漫类(Romance)、动作类(Action)电影数量增长显著,排名前六至前九的类型增长相对比较缓慢。
## 3.2问题二
### 问题2:
+ (1)不同风格电影的收益能力。
+ (2)年份与什么类型的电影风格最相关。
+ 解决方法:先增加收益数据列和收益率列,根据画出对应数据的相关系数矩阵热力图、直方图和折线图来进行分析。
![图3.2.4相关系数矩阵热力图](https://github.com/Aoshika123/Python-TMDB-5000-MovieAnalysis/blob/master/吴清典_数据分析课程论文/分析绘图/相关系数矩阵.png)
![图3.2.5收益列和收益率图](https://github.com/Aoshika123/Python-TMDB-5000-MovieAnalysis/blob/master/吴清典_数据分析课程论文/分析绘图/profit%20by%20genres.png)
问题二结论:
+ (1)从图中可以看出不同类型的电影收益状况不同,其中又以动画类(Animation)和历史类(History)收益最高。
+ (2)年份与(Western)类型相关性最高,比其他类型的高出不少。
## 3.3问题三
### 问题3:比较行业内Universal Pictures与Paramount Pictures两家巨头公司的业绩
+ 解决方法: 可视化两公司电影风格数量占比,创建两家公司的数据框,计算两家公司各自收益总额,可视化两家公司票房�
没有合适的资源?快使用搜索试试~ 我知道了~
基于对TMDB-5000-MovieAnalysis数据集进行的一些数据分析以及建立了一个简单模型来对电影评分进行预测.zip
共74个文件
png:63个
py:4个
csv:2个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 138 浏览量
2023-10-19
21:03:32
上传
评论 1
收藏 25.05MB ZIP 举报
温馨提示
基于对TMDB-5000-MovieAnalysis数据集进行的一些数据分析以及建立了一个简单模型来对电影评分进行预测.zip
资源推荐
资源详情
资源评论
收起资源包目录
基于对TMDB-5000-MovieAnalysis数据集进行的一些数据分析以及建立了一个简单模型来对电影评分进行预测.zip (74个子文件)
Python-TMDB-5000-MovieAnalysis-master
结论总结
Python期末大作业.docx 3.23MB
ss.md 0B
吴清典_数据分析课程论文
数据集
tmdb_5000_credits.csv 38.19MB
tmdb_5000_movies.csv 5.43MB
tmdb-movie-metadata.zip 8.89MB
分析绘图
revenue.png 47KB
Universal vs Paramount by revenue.png 12KB
相关系数矩阵.png 196KB
聚类分析popularity和vote_count.png 21KB
电影类型所占比例.png 90KB
数据列名.png 44KB
film count by year.png 320KB
keywords.png 102KB
数据列名.psd 516KB
profit by genres.png 84KB
film genre by year.png 748KB
Company Picture.png 62KB
python大作业代码截图
可视化票房收入相关性.PNG 50KB
查看movies中所有列名,以字典形式存储.PNG 69KB
可视化两公司票房收入对比.PNG 46KB
速度与激情8的预测分数.PNG 2KB
找出runtime缺失行数并填充.PNG 86KB
可视化两公司电影风格比例.PNG 54KB
速度与激情评分.PNG 470KB
两个数据框中的title列重复了,删除credits中的title列.PNG 67KB
解析json数据.PNG 33KB
TOP9电影风格.PNG 47KB
转化为时间.PNG 5KB
电影评分预测.PNG 26KB
相关系数矩阵热力图.PNG 14KB
聚类分析代码图.PNG 54KB
票房和属性的相关性代码.PNG 15KB
找出缺失值并填充.PNG 80KB
增加收益列和收益率列.PNG 59KB
##查看creditss中数据.PNG 71KB
查看creditss中所有列名.PNG 58KB
可视化收益列和收益率列.PNG 50KB
导入包.PNG 11KB
判断数据是否有缺失值.PNG 95KB
电影风格数量图.PNG 51KB
查看moives中数据.PNG 54KB
取出主演,导演的数据.PNG 27KB
查看数据信息,每个字段数据量.PNG 90KB
分析代码
movie_Creditnumber.py 5KB
电影类型比例.py 4KB
TMDB-5000-MovieAnalysis.py 14KB
分类测试.py 2KB
python大作业截图
可视化票房收入相关性.PNG 50KB
查看movies中所有列名,以字典形式存储.PNG 69KB
可视化两公司票房收入对比.PNG 46KB
速度与激情8的预测分数.PNG 2KB
找出runtime缺失行数并填充.PNG 86KB
可视化两公司电影风格比例.PNG 54KB
速度与激情评分.PNG 470KB
两个数据框中的title列重复了,删除credits中的title列.PNG 67KB
解析json数据.PNG 33KB
TOP9电影风格.PNG 47KB
转化为时间.PNG 5KB
电影评分预测.PNG 26KB
相关系数矩阵热力图.PNG 14KB
聚类分析代码图.PNG 54KB
票房和属性的相关性代码.PNG 15KB
找出缺失值并填充.PNG 80KB
增加收益列和收益率列.PNG 59KB
##查看creditss中数据.PNG 71KB
查看creditss中所有列名.PNG 58KB
可视化收益列和收益率列.PNG 50KB
导入包.PNG 11KB
判断数据是否有缺失值.PNG 95KB
电影风格数量图.PNG 51KB
查看moives中数据.PNG 54KB
取出主演,导演的数据.PNG 27KB
查看数据信息,每个字段数据量.PNG 90KB
README.md 15KB
共 74 条
- 1
资源评论
- youyou06082023-12-27简直是宝藏资源,实用价值很高,支持!
天天501
- 粉丝: 588
- 资源: 4666
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功