# Air-Quality-Prediction
2021年研究生数学建模竞赛B题,全国二等奖,空气质量预报二次建模,时间序列数据分析与回归预测。Time Series Prediction.
大气污染物的聚集严重危害着人体健康及生态环境,建立准确可靠的空气质量预测模型可以极大程度的辅助人类进行大气研究和干预。已有的WRF-CMAQ模型受制于模拟的气象场以及排放清单的不确定性,预报结果并不理想。因此考虑引入气象条件和污染物浓度的实测数据,对一次预报结果进行修正。本文首先考虑到实测数据的时滞性,构建了二级指标进行了气象条件的分类。之后,提出了时间感知的自适应神经网络模型进行污染物的二次预报,该模型可以自适应地关注重要时刻的信息。最后,考虑到监测点间的空间特性,构建了时空感知的自适应神经网络模型,进行检测点间的协同预测,进一步提升了二次预报的准确度。
# 问题一:
对于问题1,参考AQI计算公式,我们编写函数计算出监测点A四天内每天实测的AQI和首要污染物。
# 问题二:
对于问题2,我们首先进行了完善的数据清洗步骤,解决了实测数据存在的多种缺失情况(行缺失、数值缺失)与异常情况(异常点)。对行缺失的情况进行时间戳补齐;对缺失值采用插值法进行处理;对异常点进行分布修正。之后,考虑到实测数据的时滞性,我们根据特征工程方法找到了相关性更高的二级指标,即14小时变温、13小时变压、19小时平均风速、2小时平均湿度、183小时风向一致性。通过岭回归方法构建了可解释性强的静稳天气指数(SWI),该指数可以反映出气象条件对AQI的影响。
# 问题三:
对于问题3,我们提出了时间感知的自适应神经网络模型(TAAN)对污染物浓度进行二次预报。模型主要包含三个通道:通道1为基于卷积神经网络的一次预报数据特征提取,通道2为基于双向长短期记忆网络的实测数据特征提取,通道3为一次预报结果。该模型还集成了时间感知的注意力机制,使得模型可以自适应得关注重要时刻的信息。在通道融合时采用了自适应融合注意力机制,可以使模型自适应得关注于一次预测特征和实测特征。消融实验展示了TAAN模型通道1和通道2的重要性。实验显示,在测试集上三个监测点的首要污染物预测准确率均为100%;最大相对误差也普遍较小。
# 问题四:
对于问题4,我们首先分析了四个监测点污染物浓度的相关性,发现它们之间存在极强的相关性,这启发我们通过协同预测提高二次预报结果。因而,我们在问题3的基础上提出了时空感知的自适应神经网络模型(STANN)。为进行协同预测,通道1及通道2分别包含四个子通道,每个子通道对应一个监测点,通过空间感知的注意力机制可以自适应的学习到四个监测点所提取到特征的重要程度。最终注意力机制的结果也展示模型对于临近点具有更高的注意力权重。通过与TANN模型预测结果相比发现,考虑到协同因素的STANN模型的性能显著好于TANN模型,有助于提升监测点A的污染物浓度预报准确度。