# douban-master
## 功能
数据获取: 使用爬虫工具, 在豆瓣TOP250榜单, 猫眼网票房排行榜上爬取电影相关数据, 如评分,票房等
数据持久化: 使用pandas中的DataFrame存储csv的方式和MySQL关系型数据库存储两种方式分别实现持久化
可视化分析: 从持久化的数据中选取相应数据的关系进行可视化分析
票房预测: 通过可视化分析得到的结论, 选取可能影响票房的因素, 建立预测模型和算法, 进行预测
---
## 文件结构
| 文件 | 描述 |
| -------------------------- | ------------------------------------ |
| main.py | 数据爬虫及持久化的主函数 |
| movie_basic.py | 豆瓣TOP250列表页爬取 |
| movie_detail.py | 豆瓣电影详情内页爬取 |
| database.py | 数据库连接操作及查询接口 |
| attachfile.py | 静态内容,如请求头headers等 |
| visualization_sql.ipynb | 数据可视化,数据使用SQL查询方式 |
| visualization_pandas.ipynb | 数据可视化,数据使用pandas聚合等方式 |
| predict.ipynb | 票房预测模型的建立和预测举例 |
| /html | 存放爬取的html文件 |
| /csv | 存放pandas处理的dataframe数据 |
| /result | 存放可视化结果,及数据库内容截图等 |
---
## 技术栈
Python爬虫与数据处理: requests, lxml, re, pandas
数据持久化: pymysql, pandas, MySQL
数据清洗: pandas, MySQL (实际上没做)
可视化分析: pyecharts, matplotlib, SQL, pandas
模型预测: sklearn, numpy, matplotlib
---
## 可视化举例
![p1](./result/p%20(1).png)
![p2](./result/p%20(2).png)
![p3](./result/p%20(3).png)
![p4](./result/p%20(4).png)
![p5](./result/p%20(5).png)
![p6](./result/p%20(6).png)
![p7](./result/p%20(7).png)
![p8](./result/p%20(8).png)
![p9](./result/p%20(9).png)
![p10](./result/p%20(10).png)
![p11](./result/p%20(11).png)
---
## 票房预测举例
单位/万元
![p1](./result/预测1.png)
![p2](./result/预测2.png)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 基于豆瓣+猫眼的电影数据可视化及票房影响因素分析与预测项目源码+项目说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
基于豆瓣+猫眼的电影数据可视化及票房影响因素分析与预测项目源码+项目说明.zip (38个子文件)
code_20105
.gitattributes 66B
src
movie_detail.py 1KB
main.py 6KB
database.py 9KB
predict.ipynb 34KB
movie_basic.py 1KB
visualization_pandas.ipynb 429KB
unit.py 1KB
visualization_sql.ipynb 598KB
attachfile.py 6KB
douban.sql 1.2MB
README.pdf 1.45MB
.gitignore 95B
README.md 2KB
result
p (2).png 154KB
db.png 594KB
p (16).png 135KB
output.png 20KB
p (4).png 159KB
db_struct.png 43KB
p (12).png 205KB
p (18).png 144KB
p (10).png 283KB
p (6).png 129KB
p (17).png 145KB
p (19).png 454KB
预测1.png 61KB
p (7).png 214KB
p (9).png 139KB
p (3).png 103KB
p (13).png 138KB
p (14).png 217KB
p (8).png 216KB
p (11).png 104KB
预测2.png 40KB
p (5).png 129KB
p (15).png 159KB
p (1).png 146KB
共 38 条
- 1
资源评论
- 2301_774852052024-04-17发现一个超赞的资源,赶紧学习起来,大家一起进步,支持!
土豆片片
- 粉丝: 1529
- 资源: 5641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 毕业设计基于深度强化学习的资源调度研究python源码.zip
- 2014年计算机一级Photoshop模拟试题及答案.doc
- I2C 总线控制器及读写 EEPROM实验内容,适合FPGA初学者
- (1949-2022年期间)中国教育统计年鉴
- (2005-2014期间)中国环境统计年鉴
- 2015高中信息技术excel操作题及素材(精品文档).xls
- SW3518S全协议快充USB Type-c接口电源模块硬件参考设计评估版硬件(原理图 +pcb)+封装库文件.zip
- 基于深度强化学习算法实现多星对区域目标观测的规划python源码+数据集+模型+超详细注释.zip
- RT1052+SDRAM(IS42S16160) +SIM7600CE(PCIE接口封装)控制板硬件(原理图+PCB)+封装库
- 2017大学英语四级词汇-excel-列表版(精品文档).xls
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功