银联分类练习完成了决策树模型的构建,最终成功预测逾期还款的精确率达到0.63,召回率达到0.67,f1-score达到0.65,且经过ROC与KS曲线的绘制,AUC的面积为0.7227,ks值为0.2317,可见模型是可用的。
首先观察了model_sample.csv数据集,通过pandas进行读取数据,第一步进行数据缺失值的处理,并绘制折线图。通过对缺失值数据量排序,最终留下125个属性。在剩下的125个属性的缺失值中,对分类属性的缺失值直接进行删除,对连续属性的缺失值用K近邻的方法进行插值,其中近邻的个数选择为3。对数据的分类变量x_027与x_033进行Onehot编码处理。进行数据降维处理,运用PCA的方法,将数据的维度降为6个维度。在原始数据集中未逾期的数据有7658条,逾期的数据有2043条,其比例大约为3.5比1,我们进行SMOTE抽样,通过调参,sampling_strategy系数调为0.83,即调为5:4的抽样比。接着进行决策树的构建,通过熵调参,确定参数最大深度为12,最小分裂叶节点为0.008时,模型预测效果较好,其在测试集上的准确率达到了0.676。