项目二 数据预处理
一、实践目的
1、熟悉数据预处理的流程;
2、掌握使用 pandas 库合并数据、清洗数据、标准化数据和转换数据的常用方
法;
二、实践平台
1、操作系统:Windows10 及以上
2、Python 版本:3.8.x 及以上
3、PyCharm 或 Anoconda 集成环境
三、实践内容
任务一:合并数据集。合并数据集“healthcare-dataset-stroke.csv”和
“healthcare-dataset-age_abs.csv”,合并之后的数据集以“healthcare”命名。
任务二:独热编码。机器学习算法通常只能处理数值特征,因此需要将类别
特征转换为数值。请采用独热编码对数据集“healthcare”中的数据进行特征数字
化处理。
任务三:数据预处理。
1. 使用 StandardScaler 对数据集“data_expert_temp.xlsx”进行均值方差标
准化处理。并通过散点图对比原始数据和处理后的数据(可选择任一特征);
2. 使用 MinMaxScaler 对数据集“data_expert_temp.xlsx”进行离差标准化
处理。并绘制处理之后的数据散点图;
3. 使用 Binarizer 对数据集“data_expert_temp.xlsx”中的“血小板计数”进行
特征二值化处理,设置阈值为 100;
4. 对数据集“data_expert_temp.xlsx”进行 PCA 降维,保留特征数 8;
任务四:针对“项目一 医学数据采集”中“3. 通过 UCI 机器学习库下载数据
集”任务所下载的数据集进行预处理。
(一)检测与处理缺失值
1、项目任务
检测并处理数据集中的缺失值,删除所有数据均为缺失值的列,其他列中的