# douban-master
## 功能
数据获取: 使用爬虫工具, 在豆瓣TOP250榜单, 猫眼网票房排行榜上爬取电影相关数据, 如评分,票房等
数据持久化: 使用pandas中的DataFrame存储csv的方式和MySQL关系型数据库存储两种方式分别实现持久化
可视化分析: 从持久化的数据中选取相应数据的关系进行可视化分析
票房预测: 通过可视化分析得到的结论, 选取可能影响票房的因素, 建立预测模型和算法, 进行预测
---
## 文件结构
| 文件 | 描述 |
| -------------------------- | ------------------------------------ |
| main.py | 数据爬虫及持久化的主函数 |
| movie_basic.py | 豆瓣TOP250列表页爬取 |
| movie_detail.py | 豆瓣电影详情内页爬取 |
| database.py | 数据库连接操作及查询接口 |
| attachfile.py | 静态内容,如请求头headers等 |
| visualization_sql.ipynb | 数据可视化,数据使用SQL查询方式 |
| visualization_pandas.ipynb | 数据可视化,数据使用pandas聚合等方式 |
| predict.ipynb | 票房预测模型的建立和预测举例 |
| /html | 存放爬取的html文件 |
| /csv | 存放pandas处理的dataframe数据 |
| /result | 存放可视化结果,及数据库内容截图等 |
---
## 技术栈
Python爬虫与数据处理: requests, lxml, re, pandas
数据持久化: pymysql, pandas, MySQL
数据清洗: pandas, MySQL (实际上没做)
可视化分析: pyecharts, matplotlib, SQL, pandas
模型预测: sklearn, numpy, matplotlib
---
## 可视化举例
![p1](./result/p%20(1).png)
![p2](./result/p%20(2).png)
![p3](./result/p%20(3).png)
![p4](./result/p%20(4).png)
![p5](./result/p%20(5).png)
![p6](./result/p%20(6).png)
![p7](./result/p%20(7).png)
![p8](./result/p%20(8).png)
![p9](./result/p%20(9).png)
![p10](./result/p%20(10).png)
![p11](./result/p%20(11).png)
---
## 票房预测举例
单位/万元
![p1](./result/预测1.png)
![p2](./result/预测2.png)
没有合适的资源?快使用搜索试试~ 我知道了~
Jupyter Notebook《电影数据可视化及票房影响因素分析与预测》+源代码+文档说明
共38个文件
png:24个
py:6个
ipynb:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 94 浏览量
2024-07-22
22:00:37
上传
评论
收藏 5.17MB ZIP 举报
温馨提示
<项目介绍> - [豆瓣+猫眼]电影数据可视化及票房影响因素分析与预测 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
电影数据可视化及票房影响因素分析与预测.zip (38个子文件)
douban-master-main
.gitattributes 66B
src
movie_detail.py 1KB
main.py 6KB
database.py 9KB
predict.ipynb 34KB
movie_basic.py 1KB
visualization_pandas.ipynb 429KB
unit.py 1KB
visualization_sql.ipynb 598KB
attachfile.py 6KB
douban.sql 1.2MB
README.pdf 1.45MB
.gitignore 95B
README.md 2KB
result
p (2).png 154KB
db.png 594KB
p (16).png 135KB
output.png 20KB
p (4).png 159KB
db_struct.png 43KB
p (12).png 205KB
p (18).png 144KB
p (10).png 283KB
p (6).png 129KB
p (17).png 145KB
p (19).png 454KB
预测1.png 61KB
p (7).png 214KB
p (9).png 139KB
p (3).png 103KB
p (13).png 138KB
p (14).png 217KB
p (8).png 216KB
p (11).png 104KB
预测2.png 40KB
p (5).png 129KB
p (15).png 159KB
p (1).png 146KB
共 38 条
- 1
资源评论
mldxxxxll5
- 粉丝: 3664
- 资源: 1460
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功