1
数据分析报告
课程名称:程序设计基础(R)
开课学期: 2019 至 2020 学年 第二 学期
开课班级: 精算学 1901 班 .
题目: 最高和最低气温估计 .
学号: 20190454146 姓名: 单一悦 .
完成时间: 2020 年 6 月 26 日
2
目 录
一、 背景与目标..............................................................................................................................3
二、 数据说明..................................................................................................................................3
(一) 数据来源......................................................................................................................3
(二) 变量说明......................................................................................................................3
1. 对变量进行说明................................................................................................................3
2. 显示部分数据....................................................................................................................4
三、 数据探索..................................................................................................................................4
(一) 读取数据......................................................................................................................4
(二) 查看数据整体信息......................................................................................................4
(三) 缺失值探索,异常值探索探索..................................................................................5
1. 缺失值分析........................................................................................................................5
2. 异常值探索........................................................................................................................6
四、 描述性分析..............................................................................................................................6
(一) 数据性分析..................................................................................................................6
1. 第二天最低气温概况..........................................................................................................6
2. 第二天最低温度分布..................................................................................................................7
(二) 图像分析......................................................................................................................8
1. 当日最低温度与第二天最低温度的关系 散点图..........................................................8
2. 第二天最大相对湿度与第二天最高气温的关系 散点图..............................................9
3. 纬度与第二天最低气温的关系 折线图........................................................................10
4. 经度与第二天最高气温的关系 折线图........................................................................11
5. 第二天最低气温频数 直方图........................................................................................12
6. 第二天最高气温频率 直方图........................................................................................13
7. 第二天最低气温箱线图..................................................................................................14
8. 第二天最高气温箱线图..................................................................................................15
9. LDAPS 模型预测第二天第 1 个 6 小时分割平均云覆盖和第二天最低气温的关系
散点图......................................................................................................................................16
10. LDAPS 模型预测第二天第 2 个 6 小时分割平均降水量和第二天最高气温的
关系 散点图............................................................................................................................17
五、 相关性分析............................................................................................................................18
六、 数据集构造............................................................................................................................22
(一)测试集构造..........................................................................................................................22
(二)训练集构造..........................................................................................................................22
七、 回归分析................................................................................................................................23
(一) 建立模型....................................................................................................................23
(二) 模型评估....................................................................................................................26
(三) 模型验证....................................................................................................................28
(四) 数据预测....................................................................................................................30
八、总结与建议..............................................................................................................................30
3
最高和最低气温估计
一、 背景与目标
最高温度是一定时段内温度的最高值。常用的有日最高温度、月最高温度和
年极端最高温度。气象学中的最高温度一般是指一定时段内温度的最高值。最低
气温是指在一定时间或一定空间内空气温度的最低值。本 R 数据分析的目的即是
对第二天最高和最低气温进行预测。
二、数据说明
(一)数据来源
这些数据旨在修正韩国气象局在韩国首尔上空运行的 LDAPS 模型第二天最
高和最低气温预测。这些数据包括 2013 年至 2017 年的夏季数据。输入数据主
要由 LDAPS 模型的下一天预测数据、现位最高和最小温度以及地理辅助变量组成。
此数据中有两个输出(即第二天最高和最低空气温度)。Hindcast 验证于 2015
年至 2017 年期间进行。
(二)变量说明
1. 对变量进行说明
Present_Tmax - 当日(°C)最高气温在 0 至 21 小时之间:20 至 37.64 度。
Present_Tmin - 当日最低气温在 0 至 21 小时(°C):11.3 至 29.95。
LDAPS_RHmin - LDAPS 模型预测第二天最小相对湿度 (%):19.8 到 98.56。
LDAPS_RHmax - LDAPS 模型预测第二天最大相对湿度 (%):58.9 到 1007。
LDAPS_Tmax_lapse - LDAPS 模型预测第二天最高气温应用失效率 (°C):
17.6 至 38.58。 LDAPS_Tmin_lapse
- LDAPS 模型预测第二天最低气温应用失效率 (°C): 14.3 至 29.69。
LDAPS_WS - LDAPS 模型预测第二天平均风速 (m/s): 2.9 到 21.910。
LDAPS_LH - LDAPS 预测第二天平均潜热通量 (W/m2): -13.6 到 213.411。
LDAPS_CC1 - LDAPS 模型预测第二天第 1 个 6 小时分割平均云覆盖 (0-5 h)
(%)(%):0 到 0.9712。 LDAPS_CC2
- LDAPS 模型预测第二天第 2 个 6 小时分割平均云覆盖 (6-11 小时)(%)
(%):0 到 0.9713。 LDAPS_CC3
- LDAPS 模型预测第二天第 3 个 6 小时分割平均云覆盖 (12-17 h) (%)(%):
0 到 0.9814。 LDAPS_CC4 - LDAPS
模型预测第二天第 4 个 6 小时分割平均云覆盖 (18-23 h) (%)(%):0 到
0.9715。 LDAPS_PPT1
- LDAPS 模型预测第二天第 1 个 6 小时分割平均降水量 (0-5 小时) (%)
(%):0 到 23.716。 LDAPS_PPT2
- LDAPS 模型预测第二天第 2 个 6 小时分割平均降水量 (6-11 小时) (%)
4
(%):0 到 21.617。 LDAPS_PPT3
- LDAPS 模型预测第二天第 3 个 6 小时分割平均降水量 (12-17 h) (%)(%):
0 到 15.818。 LDAPS_PPT4
- LDAPS 模型预测第二天第 4 个 6 小时分割平均降水量 (18-23 h) (%):
0 到 16.719。 lat
- 纬度 (*): 37.456 到 37.64520. lon
- 经度 (*): 126.826 到 127.13521。DEM - 高程(米):12.4 到
212.322。 Slope
- 坡度 (*): 0.1 至 5.223。 Solar
radiation - 每日入射太阳辐射(wh/m2):4329.5 到 5992.924。
Next_Tmax - 第二天最高气温(°C):17.4 至 38.925。
Next_Tmin - 次日最低气温(°C):11.3 至 29.8.
2. 显示部分数据
图 2—1
三、数据探索
(一)读取数据
>setwd("D:\\Rprogram")
>df1<-read.csv("D:/Rprogram/Bias_correction_ucl(1).csv",header=T,stri
ngsAsFactor=F)
(二)查看数据整体信息
> head(df1)
得到:
5
图 3—1 导入、查看数据
(三)缺失值探索,异常值探索探索
1. 缺失值分析
> summary(df1)
> library(mice)
> md.pattern(df1)
图 3—2 查看缺失值
由图可知,共有 1246 个缺失值。
> df1<-df1[complete.cases(df1),] #删除缺失值