没有合适的资源?快使用搜索试试~ 我知道了~
Bigdata-Movie:本项目以数据采集、处理、分析及数据可视化为项目流程,实现百万级电影数据离线处理与计算。功能包括pyt...
共44个文件
py:12个
png:8个
txt:7个
需积分: 49 27 下载量 11 浏览量
2021-05-08
15:41:57
上传
评论 9
收藏 7.13MB ZIP 举报
温馨提示
Bigdata-movie 本项目以电影数据为主题,以数据采集、处理、分析及数据可视化为项目流程,可实现百万级电影数据离线处理与计算。 项目详解:. 开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取电影票房总收入排名情况(取前20),删除冗余和空值字,利用Python的PyMysql库连接本地Mysql数据库并导入movies表,可以将数据保存到本地,从而进行数据可视化展示,也可将数据导入到大数据的Hive数仓工具中,用于大数据分析。 采集数据展示: 排序 影片名称 类型 总票房(万) 场均人次 上映日期 1 战狼2 动作 567928 38 2017/7/27
资源推荐
资源详情
资源评论
收起资源包目录
Bigdata-Movie-master.zip (44个子文件)
Bigdata-Movie-master
scorepredict.py 3KB
3pachong.py 3KB
5Echarts最近上映电影
movie.html 8KB
js
echarts.min.js 651KB
lianxi
SimHei.ttf 9.6MB
中国票房数据.csv 950KB
result.txt 33KB
stopwords.txt 20KB
tyc.txt 18KB
movie.csv 6KB
score.log 150KB
豆瓣电影top250.sql 86KB
background1.png 319KB
pfpredict.py 3KB
film-csv.txt 20KB
color.jpg 143KB
6囧妈电影短评.csv 39KB
查询top10.txt 73B
12director.py 2KB
movie.csv 684KB
8emotion.py 818B
movies.dbf 100KB
README.md 9KB
9wordcount.py 1KB
4douanscore.py 972B
14movierank.py 796B
13movietype.py 2KB
.gitignore 2KB
mapreduce_hive
mr和hive过程及结果.txt 8KB
map_new.py 253B
The_Man_of_Property.txt 617KB
run.sh 477B
red_new.py 327B
mr流程.png 198KB
mrresult.local 177KB
dataout
图13影片类型与票房.png 47KB
8情感分析.png 19KB
图14电影收入票房top20.png 61KB
图9词频分析.png 41KB
图12导演与影片类型关系.png 37KB
图4豆瓣评分top20.JPG 47KB
图7豆瓣电影词语云.png 234KB
7cituyun.py 2KB
电票票房预测xls.xls 115KB
共 44 条
- 1
资源评论
靚兔
- 粉丝: 35
- 资源: 4637
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 给定一个整数数组 nums 和一个目标值 target,请在数组中找出和为目标值的那两个整数,并返回它们的数组下标
- default.installation
- 2023-04-06-项目笔记 - 第二百七十八阶段 - 4.4.2.276全局变量的作用域-276 -2025.10.06
- 这个教程将帮助您从基础开始学习ROS,并逐步掌握更高级的功能 ROS 是一个用于编写机器人软件的灵活框架,它提供了硬件抽象、设备
- 1_base.apk.1
- 这个教程将帮助您从基础开始学习MongoDB,并逐步掌握更高级的功能 MongoDB是一个流行的NoSQL文档数据库,适用于需要
- 5MW永磁同步风机-1200V直流混合储能并网MATLAB仿真 MATLAB2016b运行 主体模型: 风机传动模块、PMSG
- 基于matlab的作业调度问题 采用遗传算法,解决作业调度问题 一共三个作业,每个作业有不同的时间长度和紧急程度,超过时间会
- 基于c的文件读取功能(代码+简介+c语言学习).docx
- mytest02.cc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功