基于Python的购房贷款违约预测.zip资源-CSDN文库

共35个文件

png：23个

csv：4个

py：2个

版权申诉

Python

机器学习

违约预测

课程设计

5星 · 超过95%的资源 57 浏览量 2022-06-21 16:56:02 上传评论 5 收藏 7.44MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Python的购房贷款违约预测.zip （35个子文件）

intelligent

设计报告.docx 469KB

pic

信用评分.png 24KB

逾期次数.png 23KB

calFeature.png 195KB

age_range.png 28KB

grid.png 46KB

importantce.png 20KB

findINF.png 55KB

区域.png 22KB

客户查询贷款次数.png 23KB

半年申请贷款数量.png 23KB

0.57.png 8KB

age.png 52KB

工作类型.png 25KB

所有账户逾期次数.png 23KB

score.png 8KB

数据信息类型.png 8KB

主账户允许申请有效贷款数量.png 28KB

开发商.png 22KB

age_range_code.png 110KB

子账户允许申请贷款数量.png 26KB

age_get.png 84KB

所有账户申请失活数量.png 25KB

LICENSE 1KB

dataset

res.csv 224KB

important.txt 2KB

train.csv 17.81MB

tmp.csv 8KB

README.md 5KB

test.csv 4.4MB

src

dataDeal.py 5KB

__pycache__

find_feature.cpython-37.pyc 2KB

find_feature.py 2KB

read.png 55KB

README.md 13KB

# 一、购房贷款违约预测 ## 1.1 实验题目：购房贷款违约预测任务：使用机器学习相关知识完成购房贷款违约预测，给定特征字段，输出是否会发生逾期的预测。 ## 1.2 实验要求 ##### 1.2 题目背景随着世界经济的蓬勃发展和中国改革开放的逐渐深入，无论是企业的发展还是从人们消费观念的转变，贷款已经成为企业和个人解决经济问题的一种重要方式。随着银行各种贷款业务的推出和人们日益膨胀的需求，不良贷款也就是贷款违约的概率也随之激增。为了避免贷款违约，银行等金融机构在发放贷款时会对借款人的信用风险进行评估或打分，预测贷款违约的概率并根据结果做出是否发放贷款的判断。如何在发放贷款前有效的评价和识别借款人潜在的违约风险，是金融机构信用风险管理的基础和重要环节，用一套科学的模型和系统来判定贷款违约的风险性可以将风险最小化和利润最大化。 ##### 1.2 数据集数据集在../dataset 目录下，train.csv 为训练集数据，包含 120000 条数据，每条数据除去 id 和结果共有 50 个特征。test.csv 为预测集数据，包含 30000 条数据等待预测。 ##### 1.2 任务描述本任务研究如何借助非平衡数据分类的思想对银行等金融机构的购房贷款数据进行分析，并基于随机森林分类模型预测贷款违约的可能性。 ##### 1.2 评测标准采用 F1 score 指标，正样本为 1，计算方法参考 [https://en.wikipedia.org/wiki/F1_score](https://en.wikipedia.org/wiki/F1_score) ## 1.3 算法设计 ##### 1.3 数据处理载入.csv 文件后,使用.describe 方法显示数据特征，并输出到文件中，保存位置为"../dataset/tmp.csv"。该文件记录了数据的最大最小值、均值、中位数以及数据样本以百分比出现的值等信息，如图 1 所示。 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/e194785785d2c30725e251f77b9c4e7e.writebug) 图 1 数据信息类型观察信息，可知本次数据集的数据较为分散且稀疏，数据中某一类（多数类）的数据远远超过另一类（少数类）的数据，为非平衡数据且填充值 0 数量庞大，计划采用人为地构造缺失值并填充的方式将数据中的 0 进行替换，如 3.1.1 所示。此外，在分析数据时发现了 inf 数据，inf 数据在模型预测过程中由于无精确取值将报错，对 inf 数据的处理如 3.1.2 所示。在选取训练特征时，首先观察 tmp.csv 文件，找到误差很大的项，如仅有 10% 的数据有不为 0 的取值等。而后借助 matplotlib 画图等分析工具，对所有项的取值分布和相应取值下违约率的显示与分析，选择对预测影响较小的项进行去除。以对年龄分析举例，如 3.1.3。对其他项的分析举例，如 3.1.4。 ##### 1.3 人为设置缺失值并处理人为设置缺失值并处理的基本思想为得到数据的行列数据后，使用随机生成的随机因子和想要认为设置缺失值数量的比例将数据中相应随机位置的值置为 NaN，而后使用 Imputer 方法，将 NaN 数据根据本人设置为相应的取值，此程序中设置为平均值。值得注意的是，由于观察得数据比例在 50% 的值为 0 的项较多，所以此时采用中位数填充并不合适。 ##### 1.3 inf 数据的处理通过观察 tmp.csv 文件，得到 inf 数据出现的列，使用 replace 方法将 inf 数值设置为该列的中位数，从而完成对 inf 数据的处理。 ##### 1.3 age 项的数据分析首先使用 matplotlib.pyplot 工具分别绘出 age 数据中已偿还贷款和未偿还贷款人数的 KDE 图并显示在同一图上，如图 2 所示，代码实现如图 3 所示。 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/6246934adc6c8b46304e9287236cea4e.writebug) 图 2 人数密度的年龄 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/6cbcecbdd1bfe30bc5d5eee5a0b88dfe.writebug) 图 3 求 KDE 的代码实现观察图 2 可得，数据集中的年龄数据在 20-30 岁这个区间上较多，且在此区间上，未偿还贷款的人数比已偿还的人数多，初步猜测模型与 age 有强相关关系。而后继续使用绘图工具，此时着重关注未偿还贷款的数据。在 age 的 20-70 的区间上，划分长度为 5 的小区间，计算出区间上未偿还人数占总人数的比例，如图 4 所示，代码实现如图 5 所示。 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/8403f6f0047bad0996facb351e4b93a5.writebug) 图 5 未偿还贷款的年龄分布 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/3068dbcf08bc205e81c80b9da7ba1674.writebug) 图 6 求年龄分布的代码实现观察图 5 可知，在普遍的人群中，年龄较低的未偿还贷款的人数比例占比较大且随着年龄增长，该比例逐渐降低。由此可得 age 与贷款偿还有相关关系，应保留该项。 ##### 1.3 其他项数据特征分析举例同样使用 matplotlib.pyplot 工具绘制，绘制出取值的数量和相应取值未偿还贷款占该取值总人数的比例，如图 7 所示，代码实现如图 8 所示。值得注意到是，由于本数据集中许多数据的类型为浮点类型，此处绘制由于取值过多造成重叠，解决方法为对这些浮点数取小集合，使用集合的中位数代替处于这个小区间内的所有浮点数。 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/473dc70330e797908b4f6e8a71edebe4.writebug) 图 7 半年内申请贷款数量 ![](https://www.writebug.com/myres/static/uploads/2022/1/8/13d563ae0474db651a4667da69c81fc1.writebug) 图 8 特征数据分析绘制代码以图 7 中半年内申请贷款数量为例，左图为半年内申请贷款个数量的人数分布，可见申请了 0 次的人数最多。右图为各申请次数下未偿还贷款的比例，由此可见，半年内申请贷款数量越多，其违规的规律则越大，两者大致呈现正相关关系，保留该项。半年内申请贷款的数量仅为 50 项名录中的一项，本次特征寻取时对这 50 项数据分别绘制该表并观察，其余举例保存在../pic 目录下得到有较强相关关系的项则保留，若观察到无关的项则去除。 ##### 1.3 特征选择的思考在特征的构建时，有两种方式可以选择，一种为选择几个强相关特征重新构建数据集，另一种为在原数据集的基础上，保留强相关特征并去除某些对训练影响不大的特征。本实验选择后者，考虑在于本实验数据集表项较多，若采用前者进行特征工程，在单纯的绘制肉眼观察并不能很好的选择出最具有参考性的表象，在观察违约率图片时，许多特征的图表具有比较类似的特征，难以选取最优特征。若采用后者，在对 50 个特性进行观察时，去除肉眼可见的对模型无影响的特征即可，既减轻了工作量，又尽量不破坏原有的可能具有参考性的特征。 ##### 1.3 模型算法数据集中数据为非平衡数据，且首尾差距较大，选择随机森林算法中的分类算法。 ##### 1.3 随机算林算法随机森林算法直观理解，我认为是每棵决策树都是一个分类器，那么对于输入样本，N 棵树会有 N 个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。每棵决策树的生成规则为：　　1）如果训练集大小为 N，对于每棵树而言，随机且有放回地从训练集中的抽取 N 个训练样本，作为该树的训练集。每棵树的训练集都会有重复。若没有重复，则每棵树的训练集都是一样的且都是整个训练集，没有意义。如果每个样本又 M 个特征

评论收藏

内容反馈

版权申诉