# Douban_Movies_Analysic<br/>
本项目记录我在广联达实习期间做的一个小课题,主要是为了测试自己搭建的一个数据分析平台<br/>
平台的搭建参考博客:<a href="http://blog.csdn.net/gamer_gyt/article/details/51991893">http://blog.csdn.net/gamer_gyt/article/details/51991893</a><br/>
平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析<br/>
该项目主要分为以下几部分:<br/>
1:数据采集<br/><br/>
主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python3.4.3 + BeautifulSoup4.4.1 + urllib进行数据采集
2:ETL预处理<br/>
3:数据分析<br/>
4:可视化<br/>
Email:thinkgamer@163.com<br>
QQ:1923361654<br>
WeChat:17600977634<br>
CSDN:<a href="https://blog.csdn.net/gamer_gyt">https://blog.csdn.net/gamer_gyt</a><br>
微博:<a href="http://weibo.com/234654758">Thinkgamer<a>
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析 该项目主要分为以下几部分: 1:数据采集 主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python + BeautifulSoup + urllib进行数据采集 2:ETL预处理 3:数据分析 4:可视化 代码封装完好, 适用于对作影视感情分析,影评分析,电影类型分析,推荐系统的建立
资源推荐
资源详情
资源评论
收起资源包目录
豆瓣电影大数据分析-【附带爬虫豆瓣,对数据处理,数据分析,可视化】 (109个子文件)
000000_0 810B
_SUCCESS 0B
all_yingping 1.4MB
movies_links.csv 5.79MB
movie.csv 1.09MB
new_movies_load.csv 681KB
movie.csv 586KB
new_movies_see.csv 561KB
category_see.csv 4KB
category.csv 3KB
category.csv 3KB
DouBan_Spider.iml 918B
README.md 1KB
part-00000 140KB
part-00001 138KB
Y_leixing.png 83KB
QQ图片20160810115634.png 73KB
leixing.png 56KB
monthYP.png 49KB
grade.png 46KB
top10category.png 43KB
top20highword.png 41KB
monthzoushi.png 40KB
monthzoushi.png 39KB
Near20MovieNumber.png 37KB
top10MovieNumber.png 28KB
parase_html.py 7KB
main.py 6KB
down_html.py 6KB
yingping_qinggan.py 4KB
output_all.py 3KB
getGradeContent.py 2KB
jutouYPAndYP_time.py 2KB
jutouYP_time.py 1KB
yingping_time.py 1KB
y_movie_leixin.py 1KB
show_highword.py 1KB
show_category.py 1KB
x_movie_leixin.py 1KB
manage_url.py 797B
moviesETL.py 734B
grade_show.py 607B
top100.py 548B
combine.py 343B
yingpingETL.py 321B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
parase_html.cpython-34.pyc 5KB
down_html.cpython-34.pyc 4KB
output_all.cpython-34.pyc 3KB
manage_url.cpython-34.pyc 1KB
__init__.cpython-34.pyc 156B
__init__.cpython-34.pyc 153B
__init__.cpython-34.pyc 151B
__init__.cpython-34.pyc 151B
5045678 .txt 1.95MB
5045678.txt 1.95MB
new_50455678.txt 1.94MB
new_50455678.txt 1.94MB
new_50455678.txt 1.94MB
movie_summary.txt 1.56MB
movie_summary.txt 1.56MB
movie_summary.txt 1.38MB
jutou_yingping.txt 330KB
result.txt 229KB
4.txt 223KB
3.txt 204KB
sort_result.txt 173KB
sort_result.txt 173KB
2.txt 158KB
1.txt 79KB
5045678 .txt 67KB
0.txt 56KB
4.txt 19KB
4.txt 19KB
3.txt 18KB
3.txt 18KB
2.txt 15KB
2.txt 15KB
1.txt 9KB
1.txt 9KB
0.txt 7KB
0.txt 7KB
代码.txt 3KB
all_need_sql_and_py.txt 2KB
yingping_time.txt 1KB
yingping_time.txt 1KB
jutouCountByTime.txt 581B
HQL.txt 470B
000000_0.txt 449B
HQL.txt 370B
创建hive表并加载.txt 354B
HQL.txt 208B
HQL.txt 206B
test.txt 202B
HQL.txt 197B
HQL高频词.txt 178B
yingping_grade.txt 47B
共 109 条
- 1
- 2
资源评论
- hurenjie19972020-04-11请问怎么搭建环境,那个网址挂了
- 二马平川2020-03-17可以运行,谢谢分享幻想未止2020-03-17多谢支持!
幻想未止
- 粉丝: 21
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功