模式识别与机器学习
实验三:支持向量机分类器实现
姓 名: 姚雨桐
学 号: 20002146
班 级: 智机 203
指导老师: 陶阳
信息科学与工程学院
2022 年 12 月 14 日
实验三 支持向量机分类器实现
目录
实验三 支持向量机分类器实现 .............................................................................................................2
1. 数据背景与数据集介绍 ......................................................................................................................2
(1) 数据集状况 ...............................................................................................................................2
(2) 输入 ...........................................................................................................................................2
(3) 输出 ...........................................................................................................................................3
(4) 样本数 .......................................................................................................................................3
(5) 变量分析 ...................................................................................................................................3
2. 数据预处理 ..........................................................................................................................................4
(1)非数值变量数值化 .................................................................................................................4
3. 特征提取与模型训练 ..........................................................................................................................4
(1) 特征提取 ...............................................................................................................................4
4. 总结 ......................................................................................................................................................4
5. 代码 ......................................................................................................................................................5
1. 数据背景与数据集介绍
(1) 数据集状况
泰坦尼克号数据集内包含两类数据,即乘客能否生还。训练数据集(train.csv)
包含 889 位乘客的记录,每条记录都有 11 项特征,可以通过特征建立 SVM 分类
模 型 。 测 试 样 本 集 (test.csv) 包 含 417 位 乘 客 的 记 录 , 其 实 际 生 还 结 果 如
gender_submission.csv 所示。根据训练过程中学习的 SVM 模型预测乘客在海难中
能否生还。
(2) 输入
特征共有九个
(3) 输出
乘客生还情况 (二分类: '0', '1')
(4) 样本数
共有 889 个样本
(5) 变量分析
2. 数据预处理
(1)非数值变量数值化
3. 特征提取与模型训练
(1)特征提取
(2)模型训练
线性 svm 得到的模型,在训练集上的准确度为 0.71,在测试集上的精确度为 0.68,效果还
不错,未发生过拟合