![](https://csdnimg.cn/release/download_crawler_static/86927303/bg1.jpg)
指导教师评语
成 绩
批阅人
日 期
.
计算机科学与技术
实 验 报 告
( 2021 / 2022 学年 第 二 学期)
学生姓名
学 号
班 级
专 业
课程名称
数据挖掘
实验名称
城市 PM2.5 预测分析
实验时间
年
5
月
5
日
实 验 室
指导教师
![](https://csdnimg.cn/release/download_crawler_static/86927303/bg2.jpg)
目录
一、 问题描述 ..........................................................................................................................................................................3
1. 背景: ..............................................................................................................................................................................3
2. 问题: ..............................................................................................................................................................................3
二、 收集数据及数据来源 ......................................................................................................................................................3
三、 实验内容及步骤 ..............................................................................................................................................................3
1. 首先,给定的数据有训练集和测试集 ..................................................................................................................3
2. 数据处理 ..................................................................................................................................................................4
3. 采用 sklearn 岭回归拟合.........................................................................................................................................7
4. 手写梯度下降 与 线性回归模型 ........................................................................................................................10
四、 实验结果分析 ................................................................................................................................................................12
![](https://csdnimg.cn/release/download_crawler_static/86927303/bg3.jpg)
一、 问题描述
1. 背景:
虽然细颗粒物只是地球大气成分中含量很少的组分,但它对空气质量和能见
度等有重要的影响。与较粗的大气颗粒物相比,细颗粒物粒径小,富含大量的有
毒、有害物质且在大气中的停留时间长、输送距离远,因而对人体健康和大气环
境质量的影响更大。研究表明,颗粒越小对人体健康的危害越大。细颗粒物能飘
到较远的地方,因此影响范围较大。
细颗粒物对人体健康的危害要更大,因为直径越小,进入呼吸道的部位越深。
10μm 直径的颗粒物通常沉积在上呼吸道,2μm 以下的可深入到细支气管和肺
泡。细颗粒物进入人体到肺泡后,直接影响肺的通气功能,使机体容易处在缺氧
状态。
已经有大量流行病学证据表明,PM2.5 有急性与慢性健康效应。急性健康效
应体现在高 PM2.5 暴露增加患急性呼吸道疾病与心脑血管疾病的风险,慢性毒
性体现在 PM2.5 可能诱发肺癌、COPD(慢性阻塞型肺炎)、心脑血管疾病等慢
性疾病,也有研究表明对细颗粒物的暴露会影响人的免疫系统、神经系统等。
2. 问题:
PM2.5 粒径小,富含大量的有毒、有害物质且在大气中的停留时间长、输送
距离远,因而对人体健康和大气环境质量的影响更大。所以如果能做到对 PM2.5
实时且准确的预测,那么就可以为人们的日常出行提供一些注意事项,该不该出
门?出门应该准备什么?
二、 收集数据及数据来源
在机器学习平台 Kaggle 上下载城市的 PM2.5 数据集
三、 实验内容及步骤
本实验通过前 8 个小时 PM2.5 的值预测 9 个小时的 PM2.5 的值
1. 首先,给定的数据有训练集和测试集
训练集数据:
格式:前三列是时间,测站,所测项目,之后按照序号分别是 0 时,1 时,2
时,...,23 时的各个项目指标
![](https://csdnimg.cn/release/download_crawler_static/86927303/bg4.jpg)
测试集数据:
格式:9 个小时的项目数据
2. 数据处理
取前 8 个小时 PM2.5 数据放到 x_data 中,第 9 个小时的数据放到 y_data
中。
————python 代码————
# 首先导入一些工具库
import csv
from numpy import *
import numpy as np
from tqdm import tqdm
import xgboost
# 特征值 pm2.5 前 8 个小时的 pm2.5 的值
train_x_data = []
# 第 9 个小时的 pm2.5 值
train_y_data = []
# 然后读取数据
filename = 'trainingData/train.csv'
- 1
- 2
前往页