TMDB500电影数据分析资源-CSDN文库

共2个文件

csv：1个

py：1个

数据分析

Python

需积分: 34 45 浏览量 2018-05-09 11:33:44 上传评论 1 收藏 1.09MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

tmdb500.rar （2个子文件）

IMDB电影数据分析.py 4KB

tmdb_5000_movies.csv 5.43MB

# coding: utf-8 # In[3]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns #首先把数据导入进来 imdb = pd.read_csv('e:/dataset/tmdb_5000_movies.csv') #大概看一下数据是什么样的 imdb.head(3) #imdb.info() # In[4]: #首先我们查询缺失了上映日期的是哪一部电影 imdb[imdb.release_date.isnull().values == True] #然后查询这个电影的上映日期 #填充缺失值 imdb.release_date = imdb.release_date.fillna('2014-06-01') #把这一个字段的数据转化为时间格式 imdb.release_date = pd.to_datetime(imdb.release_date) #把上映的年份提取出来,新建一个列 imdb.loc[:, 'year'] = [i.year for i in imdb.release_date] imdb.head(2) # In[5]: #导入正则包 import re #建立函数 def fenge(str): pattern = re.compile(r'\b[A-Z]\w+') # 查找首字母大写 strr = pattern.findall(str) return strr #将函数应用到整列 #再将其添加到原来的数据中 imdb['generss'] = list(map(fenge, imdb.genres)) #由于目前解决的是问题1，所以先把这两列单独拿出来计算 q1 = pd.DataFrame({'generss': imdb.generss, 'year':imdb.year}) q1.info() q1.head(5) # In[6]: #可以发现，电影类型的数据是以列表形式存储的，这不利于我们接下来的运算 #首先把电影类型和年份做成一个新的列表，再重新组合 lis1 = [] lis2 = [] for i in range(len(q1.year)): for j in q1.generss[i]: lis1.append(j) lis2.append(q1.year[i]) q11 = pd.DataFrame({'genress':lis1, 'years':lis2, 'counts':1}) #先简单的看一下数据情况 #可以发现我们成功的分离了电影类型 q11.head(8) # In[7]: #对数据进行处理,得出每年份电影总数 q12 = q11.groupby('years').agg(np.sum) #把年份重新变成列 q12['years'] = q12.index.get_level_values('years') #绘图 plt.plot(q12.years, q12.counts,'c') #设置坐标轴范围和标签 plt.axis([1916, 2016, 0, 700]) #坐标轴使用中文 plt.xlabel('时间', fontproperties = 'SimHei', fontsize = 15, color = 'black') plt.ylabel('电影类型数', fontproperties = 'SimHei', fontsize = 15, color = 'black') #设置图例和网格 plt.grid() plt.legend() plt.show() # In[8]: #在接下来绘图中，为了方便，先统一设置一下中文字体 import matplotlib matplotlib.rcParams['font.family'] = 'STsong' matplotlib.rcParams['font.size'] = 15 matplotlib.rcParams['font.style'] = 'normal' # In[9]: #将所要电影按类型统计 q13 = q11.groupby('genress').agg(np.sum) #设置一下饼图的风格 plt.style.use('ggplot') #绘图 plt.pie(q13.counts/q13.counts.sum(),#绘制的是百分比的图 labels = q13.index, #标签为电影类型 autopct='%.1f%%', #百分比的格式 radius = 3, #饼图的半径 textprops = {'fontsize': 20, 'color' : 'black'}#标签字体的颜色和大小 ) plt.title('总体IMDB电影类型分布') #标题 plt.show() # In[10]: #那么如何观察这么多年来电影类型的变化呢 #首先还是对数据进行一个透视 q14 = pd.pivot_table(q11, index = ['genress', 'years'], values = ['counts'], aggfunc = np.sum) #把年份和类型重新变成列 q14['years'] = q14.index.get_level_values('years') q14['genress'] = q14.index.get_level_values('genress') #把画布设置大一些 plt.figure(figsize = (20, 10)) #循环画出每一个电影类型随着时间变化的折线图 #list1是之前对电影类型的统计 for i in set(lis1): plt.plot(q14[q14.genress == i].years, q14[q14.genress == i].counts, label = i) #label用来设置图例 plt.legend() #设置标题和坐标轴的字体大小和颜色 plt.title('电影类型随时间的变化', fontsize = 20, color = 'blue') plt.xlabel('时间', fontsize = 20, color = 'blue') plt.ylabel('数量', fontsize = 20, color = 'blue') plt.show() # In[11]: #但是这样因为种类太多，其实不方便观察的 #这里我们选取几个类型的片子作为代表去观察 a = ['Action','Drama','Thriller','Comedy','Romance'] plt.figure(figsize = (15, 8)) for i in set(a): plt.plot(q14[q14.genress == i].years, q14[q14.genress == i].counts, label = i) #label用来设置图例 plt.legend() #设置标题和坐标轴的字体大小和颜色 plt.title('电影类型随时间的变化', fontsize = 20, color = 'blue') plt.xlabel('时间', fontsize = 20, color = 'blue') plt.ylabel('数量', fontsize = 20, color = 'blue') plt.show()

评论收藏

内容反馈