没有合适的资源?快使用搜索试试~ 我知道了~
学习用Python进行数据分析一段时间了,也跟着书本、网上案例,包括工作中的数据做了很多分析工作。用一个项目做阶段性的小结。该项目是kaggle上的经典项目,美国百年间的4800部电影数据分析,按照数据分析的步骤做了详细的记录。码字不易,谢谢支持。
资源详情
资源评论
资源推荐
原文链接:https://github.com/Alexander-zhoukai/TMDb-data-analysis-report
TMDb 数据分析报告
目 录
第一章 提出问题
................................................................................................................................
3
1.1 项目背景
...............................................................................................................................
3
1.2 提出问题
...............................................................................................................................
3
1.3 分析思维
...............................................................................................................................
3
1.4 分析方法和工具
...................................................................................................................
3
1.5 本项目计划
...........................................................................................................................
4
第二章 理解数据
................................................................................................................................
5
2.1 导入包
...................................................................................................................................
5
2.2 导入数据
...............................................................................................................................
6
2.3 理解数据
...............................................................................................................................
6
第三章 数据清洗
................................................................................................................................
7
3.1 数据预处理
...........................................................................................................................
7
3.1.1 删除行列
....................................................................................................................
7
3.1.2 填充缺失值
................................................................................................................
7
3.1.3 合并表格
....................................................................................................................
8
3.2 特征提取
...............................................................................................................................
9
3.2.1 解码 json 字符串
......................................................................................................
9
3.2.2 去重
..........................................................................................................................
10
3.2.3 数字化
......................................................................................................................
10
3.2.4 类型转换
..................................................................................................................
11
3.2.5 重命名列
..................................................................................................................
11
3.3 特征选取
.............................................................................................................................
11
3.3.1 构造 Series
.............................................................................................................
11
3.3.2 构造 DataFrame
.......................................................................................................
11
3.4 小结数据清洗报告
.............................................................................................................
11
第四章 数据分析及可视化
..............................................................................................................
13
4.1 电影风格随时间变化的趋势
.............................................................................................
13
4.2 不同风格电影的收益能力
.................................................................................................
14
4.3 不同风格电影的受欢迎程度
.............................................................................................
15
4.4 不同风格电影的平均评分
.................................................................................................
16
4.5 不同类型电影的平均评分次数
.........................................................................................
17
4.6 比较 Universal Picture 与 Paramount Picture 两家巨头公司的业绩
.....................
17
4.7 原创电影和改变电影的对比
.............................................................................................
18
4.8 电影票房收入与哪些因素最相关
.....................................................................................
19
4.9 分析结论
.............................................................................................................................
20
第五章 项目回顾与总结
..................................................................................................................
22
第一章 提出问题
1.1 项目背景
本报告数据来源于 Kaggle 平台上的项目 TMDb(The Movie Database),主要是
1916-2017 年百年间美国电影作品,共有 4803 部。
通过对电影数据的分析,利用可视化的方法,发现电影流行的趋势,找到电影投资的方
向,为行业新入局者提供参考建议。
本文的重点在于从不同的角度,用数据可视化的方法来分析。未能面面俱到。
1.2 提出问题
本次数据分析的核心任务是:通过历史电影数据的分析,为行业新入局者提供参考建议。
细分为以下几个小问题:
问题 1:电影风格随时间变化的趋势;
问题 2:不同风格电影的收益能力;
问题 3:不同风格电影的受欢迎程度;
问题 4:不同风格电影的平均评分;
问题 5:不同风格电影的平均评价次数;
问题 6:比较 Universal Picture 与 Paramount Picture 两家巨头公司的业绩;
问题 7:原创电影和改变电影的对比;
问题 8:电影票房收入与哪些因素最相关。
1.3 分析思维
数据分析常用思维有细分、对比和溯源。
细分方法有横切、纵切和内切。其中横切是指从各个维度的各个点来分析(如产品、渠
道、用户、营销等维度里面的各个指标点);纵切是指通过漏斗分析、动作轨迹分析或者日
志来做分析;内切一般是用 RFM 来深入分析。对比指横切的对比、纵切的对比、目标的对比
或者时间上对比。溯源是指通过反复的细分,反复的对比,来确定关键点所在。
本项目采用的思维是细分-横切,从各个维度分析以找到关键信息。
1.4 分析方法和工具
本项目采用数据可视化的方法,来呈现各部分的分析结果,回答问题用数说话、用图说
话。数据分析过程中使用 Python 编程语言,数据处理使用 pandas 库、numpy 库,可视化需
要 matplotlib 库、seaborn 库。使用以上方法、工具能较好地完成本项目,是适合的方法
和工具。
1.5 本项目计划
1 月 2 号,完成第一、二章,前期工作:工具安装调试、项目背景和理解数据。
1 月 3、4 号,完成第三、四章,主要是编写代码:完成数据清洗、数据分析和可视化。
1 月 5 号,完成第五、六章,文字部分:整理项目资料,编写输出文档、存档资料。
第二章 理解数据
在 Kaggle 平台上找到 TMDb 项目,下载 2 个原始数据集:tmdb_5000_movies.txt 和
tmdb_5000_credits.txt,前者存放电影的基本信息,有 20 个字段,后者存放演职人员的
信息,有 4 个字段。
表 2.1 原始数据集各字段的含义
tmdb_5000_movies
tmdb_5000_credits
budget
预算
movie_id
编号
genres
风格
title
主题
homepage
主页
cast
演员
id
编号
crew
职员
keywords
关键词
original_language
原始语言
original_title
原始标题
overview
摘要
popularity
人数
production_companies
生产公司
production_countries
生产国家
release_date
发行日期
revenue
票房收入
runtime
时长
spoken_languages
语言
status
状态
tagline
标签
title
主题
vote_average
投票平均得分
vote_count
投票数量
2.1 导入包
数据分析及可视化常用库:4+n(4)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import warnings
剩余21页未读,继续阅读
chow28
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- tensorflow-2.7.3-cp39-cp39-manylinux2010-x86-64.whl
- tensorflow-2.7.2-cp39-cp39-manylinux2010-x86-64.whl
- Python版本快速排序源代码
- Python 语言版的快速排序算法实现
- 450815388207377安卓_base.apk
- 超微主板 X9DRE-TF+ bios 支持 nvme启动
- 基于Python通过下载气象数据和插值拟合离散数据曲线实现对寒潮过程的能量分析
- 健身房系统的设计与实现论文Java项目
- 使用TCP实现的搜索可用服务器
- 使用贪心算法解决会议时间安排问题的 Java 示例代码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0