项目七 集成学习
一、实践目的
1、理解集成学习算法原理;
2、熟悉并掌握常用集成学习算法的使用方法;
3、熟悉模型性能评估的方法;
4、掌握模型优化的方法。
二、实践平台
1、操作系统:Windows7 及以上
2、Python 版本:3.8.x 及以上
3、PyCharm 或 Anoconda 集成环境
三、实践内容
数据集文件名为“aqi.csv”,包含了为 2020 年全国空气质量数据,该数据集
主要记录了 2020 年 1 月至 2020 年 9 月的空气质量指标,包括日期、AQI、质量
等级、PM2.5 含量(ppm)、PM10 含量(ppm)、SO2 含量(ppm)、CO 含
量(ppm)、NO2 含量(ppm)、O3_8h 含量(ppm)等字段。
本项目实践所涉及的业务为天气质量分析和预测。将数据分为训练集和测试
集,通过集成学习建立算法模型预测 AQI 值和质量等级。
(一)数据理解及准备
1. 导入本案例所需的 Python 包;
2. 通过 describe()、info()方法、shape 属性等对读入的数据对象进行探索性分
析。
3. 结合实际数据情况,对数据集进行适当的预处理;
4. 提取用于数据分析的特征,并划分训练集和测试集。
(二)模型建立、预测及优化
任务一:随机森林
1. 回归模型
(1) 通过 RandomForestRegressor()方法建立模型并训练;
(2) 使用该模型预测 AQI 值;