# 数据集简介
本数据集采集于豆瓣电影,电影与演员数据收集,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,是当前国内互联网公开的电影数据集中最全的一份(据我所知)!
数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv,关于各个文件的具体内容将在下文介绍。
# 数据格式
## Movie数据格式
电影数据共140502部,2019年之前的电影有139129,当前未上映的有1373部,包含21个字段,部分字段数据为空,字段说明如下:
- MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
- NAME: 电影名称
- ALIAS: 别名
- ACTORS: 主演
- COVER: 封面图片地址
- DIRECTORS: 导演
- GENRES: 类型
- OFFICIAL_SITE: 地址
- REGIONS: 制片国家/地区
- LANGUAGES: 语言
- RELEASE_DATE: 上映日期
- MINS: 片长
- IMDB_ID: IMDbID
- DOUBAN_SCORE: 豆瓣评分
- DOUBAN_VOTES: 豆瓣投票数
- TAGS: 标签
- STORYLINE: 电影描述
- SLUG: 加密的url,可忽略
- YEAR: 年份
- ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“\|”符号分割,格式“演员A:ID\|演员B:ID”;
- DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“\|”符号分割,格式“导演A:ID\|导演B:ID”;
## Person数据格式
Person文件只包括演员和导演,不包含豆瓣用户数据,共72959个名人数据,包含10个字段,每个PERSON_ID都会对应一个name,不存在PERSON_ID的数据已过滤,各个字段说明如下:
- PERSON_ID: 名人ID
- NAME: 演员名称
- SEX: 性别
- NAME_EN: 更多英文名
- NAME_ZH: 更多中文名
- BIRTH: 出生日期
- BIRTHPLACE: 出生地
- CONSTELLATORY: 星座
- PROFESSION: 职业
- BIOGRAPHY: 简介,存在简介数据的名人只有15135个。
## User数据格式
users.csv数据为豆瓣用户的无脱敏信息,主要是与评论和评分绑定在一起,共获取了639125用户数据,包含4个字段,具体的字段如下:
- USER_ID:豆瓣用户ID
- USER_NICKNAME: 评论用户昵称
- USER_AVATAR: 评论用户头像
- USER_URL: 评论用户url
## Rating数据
评分数据从评论数据中获得,由于豆瓣限制了未登录用户查看的数据量,所以每部电影最多320个评分,最终得到600384个用户的4169420条评分数据,涉及电影68471部,评分值为1-5分(1-很差,2-较差,3-还行,4-推荐,5-力荐),共包含5个字段,数据格式如下:
- RATING_ID: 评分ID
- USER_ID:豆瓣用户ID
- MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
- RATING: 评分
- RATING_TIME: 评分时间
## Comment数据格式
评论数据共4428475 条,包含6个字段,各个字段说明如下:
- COMMENT_ID: 评论ID
- USER_ID:用户ID
- MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
- CONTENT: 评论内容
- VOTES: 评论赞同数
- COMMENT_TIME: 评论时间
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
项目使用教程可以关注博主的主页,有对应博客:https://blog.csdn.net/weixin_43486940 本文主要介绍如何使用python搭建:一个基于Python的电影数据分析与可视化系统 项目功能和可视化展示界面涉及以下功能模块,包括: 1、用户登录界面。 2、爬虫电影数据收集。 3、电影简介界面。根据用户偏好展示TOP10的电影。 4、搜索功能界面。按照电影名、导演、演员,模糊匹配需要搜索的电影,并展示电影详情。 5、电影数据分析可视化界面。用户选择关键词来查看数据和该分类下的数据可视化。 6、数据分析可视化包括:①电影年代、产地、类型的饼状图或柱状体、②关于电影评价的词云图分析。
资源推荐
资源详情
资源评论
收起资源包目录
代码分享-手把手教你:电影数据分析与可视化系统.zip (42个子文件)
代码分享-手把手教你:电影数据分析与可视化系统
db.sqlite3 0B
create_data.py 4KB
app
__init__.py 0B
wsgi.py 402B
urls.py 2KB
settings.py 3KB
__pycache__
urls.cpython-36.pyc 2KB
views.cpython-36.pyc 9KB
settings.cpython-36.pyc 2KB
__init__.cpython-36.pyc 154B
wsgi.cpython-36.pyc 543B
asgi.py 402B
views.py 19KB
data
tasks.csv 241B
movies.csv 9.17MB
users.csv 231B
stopwords.txt 12KB
templates
user_base.html 2KB
start.html 111B
fc_charts.html 2KB
fc_show.html 4KB
base.html 4KB
fc_search.html 1KB
fc_movies.html 1KB
error.html 85B
fc_cloud.html 3KB
data_class.html 2KB
base_search.html 3KB
manage.py 681B
环境安装
环境启动操作.txt 59B
环境安装.docx 13KB
movie_data
movies.csv 80.82MB
users.csv 29.18MB
person.csv 11.35MB
ratings.csv 333.25MB
comments.csv 144.68MB
README.md 3KB
static
img
background_img.jpg 42KB
WordCloud_img.jpg 271KB
charts.jpg 8KB
user.jpg 14KB
css
mycss.css 126B
共 42 条
- 1
大雾的小屋
- 粉丝: 1095
- 资源: 35
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页