泰坦尼克号船员获救预测_泰坦尼克号混淆矩阵资源-CSDN文库

85 浏览量 2020-12-21 13:57:23 上传评论收藏 101KB PDF 举报

泰坦尼克号船员获救预测第一步导入各种包 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 import seaborn as sns from sklearn import datasets from sklearn import impute from sklearn.preprocessing import StandardScaler ,PolynomialFeatures #导入预处理在"泰坦尼克号船员获救预测"这个任务中，我们主要关注的是利用机器学习技术预测泰坦尼克号上船员的生存情况。在这个过程中，我们首先会涉及到数据预处理、特征工程以及多种机器学习模型的选择和评估。 1. **数据预处理**： - **导入库**: 使用Python中的`numpy`, `pandas`, `matplotlib`, `seaborn`, `sklearn`等库进行数据处理和可视化。 - **字体设置**: `plt.rcParams['font.sans-serif']=['SimHei']`确保中文标签正常显示。 - **预处理库**: `StandardScaler`用于特征标准化，`PolynomialFeatures`用于创建多项式和交互特征，`PCA`用于主成分分析以减少特征维度。 - **缺失值处理**: 使用`SimpleImputer`和`KNNImputer`进行缺失值填充，`SimpleImputer`可使用平均值、中位数或众数策略，而`KNNImputer`则根据邻居的值来填充缺失值。 2. **数据加载**： - 使用`pd.read_csv`读取训练集和测试集数据，并对`y_true`（实际生存结果）进行加载。 - 缺失值处理函数的定义，方便在训练集和测试集上应用相同的处理策略。 3. **特征工程**： - 可能包括对原始数据进行编码、创建新特征（如年龄的中位数填充，性别的一二元编码等）、选择与生存相关的特征等步骤。 4. **模型选择与评估**： - **模型选择**: 使用了多种分类模型，如逻辑回归 (`LogisticRegression`), 随机森林分类器 (`RandomForestClassifier`), KNN分类器 (`KNeighborsClassifier`), 支持向量机 (`SVM`), 高斯贝叶斯 (`GaussianNB`)。 - **交叉验证**: 使用`KFold`进行K折交叉验证，以评估模型的泛化能力。 - **模型调优**: 使用`GridSearchCV`进行参数网格搜索，寻找最优模型参数。 - **模型评估**: 使用`roc_curve`绘制ROC曲线，计算`roc_auc_score`以评估模型的AUC值，`accuracy_score`衡量模型的准确率，`classification_report`展示模型性能指标，`confusion_matrix`生成混淆矩阵，`make_scorer`定义自定义评分函数。 5. **流水线构建**： - 使用`Pipeline`或`make_pipeline`构建数据预处理和模型训练的流水线，使得整个流程可以被封装和重复使用。 6. **模型预测**： - 在训练好模型后，使用测试集数据进行预测，生成最终的结果提交。在这个项目中，通过以上步骤，我们将构建一个机器学习模型，该模型能够基于泰坦尼克号乘客的数据预测他们在灾难中的生存情况。通过对数据的深入理解和模型的精细调整，我们可以提高预测的准确性，从而更好地理解在泰坦尼克号沉船事件中哪些因素可能影响船员的存活概率。

资源推荐

资源详情

资源评论

泰坦尼克号船员获救预测泰坦尼克号船员获救预测

第一步导入各种包第一步导入各种包

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

import seaborn as sns

from sklearn import datasets

from sklearn import impute

from sklearn.preprocessing import StandardScaler ,PolynomialFeatures #导入预处理.标准化缩放,多项式&交互特征

from sklearn.decomposition import PCA # 导入分解.PCA

from sklearn.pipeline import make_pipeline,Pipeline # 导入流水线.造流水线

from sklearn.model_selection import KFold , cross_val_score,GridSearchCV # 导入模型选择.K折交叉验证、交叉验证得分、

网格搜索

from sklearn.linear_model import LogisticRegression ,LinearRegression # 逻辑回归，线性回归

from sklearn.ensemble import RandomForestClassifier #随机森林分类器

from sklearn.neighbors import KNeighborsClassifier # KNN分类器

from sklearn.svm import SVC #支持向量机

from sklearn.naive_bayes import GaussianNB #高斯贝叶斯

from sklearn.metrics import roc_curve , roc_auc_score ,accuracy_score ,classification_report,make_scorer,confusion_matrix

#导入roc曲线，auc得分，准确率函数，分类器性能报告 ,自定义得分函数,混淆矩阵

第二步加载数据第二步加载数据

数据路径要修改一下，才适合你的电脑

titanic = pd.read_csv(r'../train.csv')

test = pd.read_csv(r'../test.csv')

y_true = pd.read_csv(r'../gendermodel.csv',index_col = 0)

定义缺失值处理函数，方便同时操作训练集和测试集定义缺失值处理函数，方便同时操作训练集和测试集

print('----------------------------------------缺失值处理函数------------------------------------------------------')

#插值函数,传入表、列名、插值方式，返回插值结果

def simple_impute(df,col,stat):

from sklearn import impute

null_row = df[col].isnull()#记下空缺值

_ = impute.SimpleImputer(missing_values=np.nan,

strategy= stat,

copy=False)

_.fit_transform(df[col].values.reshape(-1,1))

return df[col][null_row] #返回插补效果

#创建一个KNN插值函数

def knn_imputer(df,cols,col):

from sklearn import impute

df['is_imputer'+ col] = np.where(df[col].isnull(),1,0) #新建一列，被插补的行标1

s_ = StandardScaler() #先搞一个缩放器

X = s_.fit_transform(df[cols]) #把特征缩放

in_ = impute.KNNImputer(n_neighbors=10, copy=True)#创建插补器

in_X = in_.fit_transform(X) #执行插补

result = s_.inverse_transform(in_X) #插补后的特征逆缩放

df[col] = pd.DataFrame(result,columns = cols)[col] #用插补后的列覆盖原列

return df[df['is_imputer'+ col] == 1] #返回插补效果

定义关于特征提取、变换的函数（其中有一些没用上）定义关于特征提取、变换的函数（其中有一些没用上）

print('----------------------------------------特征工程函数------------------------------------------------------')

#提取姓名中的头衔和婚姻状况

def extract_name_lable(df):

title_map = {'Mr':0,'Miss':0,'Mrs':0,}

unmarried_map = {'Miss':1,'Ms':1,'Mlle':1,}

title = df['Name'].str.split(',',expand = True)[1].str.split('.',expand = True)[0].str.lstrip()

df['is_name_title'] = title.map(title_map).fillna(1) #无头衔标0,有头衔标1

df['is_unmarried'] = title.map(unmarried_map).fillna(0) # 未婚女性标1

#为性别和登船点编码

def one_hot(df,cols):

for col in cols:

df = df.join(

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38646645

粉丝: 4
资源: 1001

泰坦尼克号船员获救预测

泰坦尼克号船员获救预测详细过程

泰坦尼克号获救预测程序及数据

泰坦尼克号船员获救预测项目-集成学习的数据集

泰坦尼克船员获救数据

泰坦尼克号生存者预测测试集

机器学习项目实战:泰坦尼克号获救预测 训练数据和测试数据 完整版

0泰坦尼克号获救预测.zip_1ZJG_python_数据挖掘_数据挖掘实例_获救 预测

泰坦尼克号预测

Titanic_Survival_Prediction

期末论文 几种不同的机器学习方法预测泰坦尼克号幸存者1

泰坦尼克号乘客⽣存预测数据集

基于简单模型KNN——泰坦尼克号获救分析

kaggle机器学习竞赛泰坦尼克号船员数据集

tatanic泰坦船员获救.zip

人工智能课程体系及项目实战 (2).docx

人工智能课程体系及项目实战.docx

机器学习 泰坦尼克号生还预测数据集

泰坦尼克号幸存者预测泰坦尼克号幸存者预测泰坦尼克号幸存者预测泰坦尼克号幸存者预测泰坦尼克号幸存者预测

泰坦尼克号生还者预测比赛（Manav Sehgal）：

Titanic-Survivors:Kaggle Challenge构建机器学习模型以预测泰坦尼克号幸存者

泰坦尼克幸存者预测数据集

泰坦尼克号生存预测数据集

机器学习项目实战

泰坦尼克号预测的数据集

directory.csv Employee_monthly_salary.csv titanic_train.csv

“泰坦尼克”号与海上救生.docx

唐宇迪机器学习数据分析全套第二部分

titanic数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存

最新资源

机器学习项目实战:泰坦尼克号获救预测训练数据和测试数据完整版

0泰坦尼克号获救预测.zip_1ZJG_python_数据挖掘_数据挖掘实例_获救预测

期末论文几种不同的机器学习方法预测泰坦尼克号幸存者1

机器学习泰坦尼克号生还预测数据集