# douban-master
## 功能
数据获取: 使用爬虫工具, 在豆瓣TOP250榜单, 猫眼网票房排行榜上爬取电影相关数据, 如评分,票房等
数据持久化: 使用pandas中的DataFrame存储csv的方式和MySQL关系型数据库存储两种方式分别实现持久化
可视化分析: 从持久化的数据中选取相应数据的关系进行可视化分析
票房预测: 通过可视化分析得到的结论, 选取可能影响票房的因素, 建立预测模型和算法, 进行预测
---
## 文件结构
| 文件 | 描述 |
| -------------------------- | ------------------------------------ |
| main.py | 数据爬虫及持久化的主函数 |
| movie_basic.py | 豆瓣TOP250列表页爬取 |
| movie_detail.py | 豆瓣电影详情内页爬取 |
| database.py | 数据库连接操作及查询接口 |
| attachfile.py | 静态内容,如请求头headers等 |
| visualization_sql.ipynb | 数据可视化,数据使用SQL查询方式 |
| visualization_pandas.ipynb | 数据可视化,数据使用pandas聚合等方式 |
| predict.ipynb | 票房预测模型的建立和预测举例 |
| /html | 存放爬取的html文件 |
| /csv | 存放pandas处理的dataframe数据 |
| /result | 存放可视化结果,及数据库内容截图等 |
---
## 技术栈
Python爬虫与数据处理: requests, lxml, re, pandas
数据持久化: pymysql, pandas, MySQL
数据清洗: pandas, MySQL (实际上没做)
可视化分析: pyecharts, matplotlib, SQL, pandas
模型预测: sklearn, numpy, matplotlib
---
## 可视化举例
![p1](./result/p%20(1).png)
![p2](./result/p%20(2).png)
![p3](./result/p%20(3).png)
![p4](./result/p%20(4).png)
![p5](./result/p%20(5).png)
![p6](./result/p%20(6).png)
![p7](./result/p%20(7).png)
![p8](./result/p%20(8).png)
![p9](./result/p%20(9).png)
![p10](./result/p%20(10).png)
![p11](./result/p%20(11).png)
---
## 票房预测举例
单位/万元
![p1](./result/预测1.png)
![p2](./result/预测2.png)
程序员无锋
- 粉丝: 3707
- 资源: 2573
最新资源
- FR12345678.txt
- 我的将打败v的v据哦是风笛回复1
- UWB定位最基本原理逻辑框架
- 变身道具i速度放缓士大夫是ubv2
- 台湾香港注音输入法 Sougou zhuyin input
- Docker环境中高效构建LNMP架构的技术指南及应用
- 会丢功夫欧文回复我额和人物4
- c语言数据结构文档和代码
- Python实现缺失值处理代码
- 基于51单片机微波炉仿真(原理图+仿真+源码)
- Docker容器技术详解-涵盖操作流程、安全防护、性能调优及应用部署
- python-38.台阶问题-个人两阶两阶走.py
- python-1.自底向上合并排序算法.py
- python-test-2.最长公共子序列.py
- Docker搭建LNMP环境:2025年最新详解及优化策略
- C++语言实例-毕业设计项目:宾馆客房管理系统设计与实现-开题报告,论文,答辩PPT参考
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈