
数据处理中央气象台台风网爬取的预报数据和实况数据(经纬度路径、中心
气压,最大风速),预报数据作为模型输入,实况数据作为真值标签数据。
2015-2021 年中央气象台台风预报和实况数据
可以增加一些时间特征(不过后面根据随机森林得到的特征重要性排序,所给
的时间特征贡献不大):
#
构造新的时间特征
hour = pd.to_datetime(df['dateUTC'],
format='%Y%m%d%H%M').dt.hourmonth = pd.to_datetime(df['dateUTC'], forma
t='%Y%m%d%H%M').dt.monthdf.loc[:,'hour'] = hour.valuesdf.loc[:,'month']
= month.values
分割训练集和验证集:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.25) #分离训练集和测试集#测试集的路径,中心气压。最大风速,用于结
果对比 Y_fcst = X_test[['lonTC_f', 'latTC_f', 'mslp_f', 'vmax_f']]Y_anal
= Y_testY_fcst.index = range(len(Y_fcst))Y_anal.index =
range(len(Y_anal))