#### 《大数据技术基础》结课作业
## 基于Spark对全国历史气象数据的分析
- **获取气象数据**
- 从[www.data.gov](http://www.data.gov/)下载气象数据
- 数据集整合了来自大约30个不同数据源的每日气候观测。包含了全球90,000多个陆基台站的台站测量数据,从中只取出中国站点的数据。
- ![image-20200817203416072](charts/data_info.png)
- **用****PySpark****处理数据**
- **将所有文件读为一个****RDD** rdd = sc.wholeTextFiles("file:///" + os.getcwd() + "/china/")
- **数据清洗 ** 去除字母, -9999等无效数据
- **进行计算、排序等操作** 计算出最大值,最小值,平均值,并按照年份排序。最终得出各个站点以及全国每年的主要气象数据的统计结果。
- **将结果存入数据库中** 得出的结果和stations.txt文件中站点的主要信息分别存入MySQL数据库中。
- 数据可视化
主要运用了Python的第三方库matplotlib和pyecharts
![](charts/全国历年气温变化曲线.png)
![](charts/全国2018年各气象站降水量分布图(单位_mm).png)
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
数据分析_基于Spark实现对全国历史气象数据进行分析.zip (18个子文件)
数据分析_基于Spark实现对全国历史气象数据进行分析
答辩.pdf 1.64MB
data
china_stations.txt 19KB
readme.txt 31B
charts
全国2018年各气象站最高气温分布图(单位_℃).png 189KB
全国2018年各气象站最低气温分布图(单位_℃).png 190KB
data_info.png 359KB
全国2018年各气象站降水量分布图(单位_mm).png 204KB
全国历年气温变化曲线.png 87KB
全国历年平均降水量变化曲线.png 77KB
全国2018年各气象站平均气温分布图(单位_℃).png 198KB
README.md 19B
README.md 1KB
code
show.py 3KB
show_map.py 6KB
stations_to_mysql.py 1KB
year_all_stations.py 3KB
year_china.py 5KB
readme.txt 32B
共 18 条
- 1
资源评论
__AtYou__
- 粉丝: 1585
- 资源: 441
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功