# loan-risk-prediction
💖基于机器学习的贷中风险预测模型--江苏银行“随e融”杯--二等奖💖
- 项目背景
网贷业务中,一个客户的工作或者生活情况的变化往往会对客户产生较大影响,一些负面因素可能导致一个优质客户转变为高风险客户,准确的在贷中场景中识别风险概率变化较大的客户,可以有效的进行防范并降低损失。在实际中,描述一个客户的数据维度复杂且多元,我们需要从万千数据中挖掘,寻找那些可以体现客户风险的特征维度,因此需要引入机器学习模型,通过不同的算法进行大量的运算以确定客户的风险变化情况。
- 赛题理解
题目中的贷中客户分为三种情况:普通贷款,授信,贷中再申请贷款。这是一个贷中风险控制的评分卡建模过程(二分类问题),数据分为五张表,由cust_id进行关联,但并不是每个客户都存在五张表,例如贷款中客户授信信息表,贷中客户申请表,贷中客户申请的缺失值考虑直接补0,授信这种缺失值有其实际意义,考虑进行分箱。
由于该二分类中存在类不平衡问题,我们考虑建立以XGBoost、LightGBM、CatBoost为第一层基模型,逻辑回归为第二模型的Stacking融合模型,为此期待达到更高的模型效果。
- 核心技术
数据预处理,决策树分箱,XGBoost、LightGBM、CatBoost算法,模型融合Stacking
- 方案步骤
1. 赛题理解
![图片sadasd1](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/图片sadasd1.png)
2. 数据探索性分析
![图片2](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/图片2.png)
3. 数据清洗(数据预处理)
![图片3](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/图片3.png)
![图片4](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/图片4.png)
![图片ewrwe5](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/图片ewrwe5.png)
4. 特征工程
![image-20220227200350616](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200350616.png)
![image-20220227200407937](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200407937.png)
![image-20220227200423124](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200423124.png)
![image-20220227200442873](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200442873.png)
![image-20220227200519869](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200519869.png)
5. 模型训练
使用**LightGBM**模型进行训练,拥有l更快的训练效率,更高的准确率和更低的内存使用。
6. 模型验证
![image-20220227200641617](https://cdn.jsdelivr.net/gh/ThinkingXuan/HexoStaticImage/img/image-20220227200641617.png)
7. 调参
- 贝叶斯调参
- 针对时间复杂度的问题,通过len(lgb.cv(params)[‘auc-mean’]))获得最好迭代步数,来进行剪枝,减少所耗时间
- 最终:**F1_score**提交中结果为**0.629**
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于机器学习的贷中风险预测模型python实现源码+文档说明+PPT文档(高分项目).zip网贷业务中,一个客户的工作或者生活情况的变化往往会对客户产生较大影响,一些负面因素可能导致一个优质客户转变为高风险客户,准确的在贷中场景中识别风险概率变化较大的客户,可以有效的进行防范并降低损失。在实际中,描述一个客户的数据维度复杂且多元,我们需要从万千数据中挖掘,寻找那些可以体现客户风险的特征维度,因此需要引入机器学习模型,通过不同的算法进行大量的运算以确定客户的风险变化情况。 基于机器学习的贷中风险预测模型python实现源码+文档说明+PPT文档(高分项目).zip网贷业务中,一个客户的工作或者生活情况的变化往往会对客户产生较大影响,一些负面因素可能导致一个优质客户转变为高风险客户,准确的在贷中场景中识别风险概率变化较大的客户,可以有效的进行防范并降低损失。在实际中,描述一个客户的数据维度复杂且多元,我们需要从万千数据中挖掘,寻找那些可以体现客户风险的特征维度,因此需要引入机器学习模型,通过不同的算法进行大量的运算以确定客户的风险变化情况。基于机器学习的贷中风险预测模型
资源推荐
资源详情
资源评论
收起资源包目录
基于机器学习的贷中风险预测模型.zip (50个子文件)
基于机器学习的贷中风险预测模型
doc
赛题1:基于机器学习的贷中风险预测模型.docx 26KB
2020“江苏银行杯”金融大数据建模挑战赛-初赛作品方案.docx 20KB
~$20“江苏银行杯”金融大数据建模挑战赛-初赛作品方案.docx 162B
数据字段示例说明.docx 16KB
src
extra.py 1KB
label.csv 18KB
test_time.py 298B
handle_apply.csv 260KB
test.ipynb 0B
credit.txt 3.88MB
handle_customer_information.csv 322KB
贷款流水表.txt 11.01MB
result.xlsx 110KB
handle_extra.csv 275KB
handle_presentation.ipynb 29KB
handle_flow_chart.py 1KB
merge.csv 1.62MB
handle_credit.csv 544KB
customer_information.txt 673KB
do_better.ipynb 48KB
handle_credit.py 1KB
apply.txt 420KB
merge.py 615B
handle_customer_information.py 445B
result.csv 86KB
temp1.xlsx 6KB
build_test.py 1009B
handle_flow_chart.csv 210KB
handle_presentation.csv 592KB
train.csv 1.45MB
merge_test.py 675B
handle_presentation.py 4KB
feature_engineering.ipynb 2.13MB
flow_chart.txt 11.01MB
大佬的ppt,特征提取十分值得学习.pptx 3.82MB
handle_apply.py 1003B
merge_task.ipynb 20KB
temp.xlsx 10KB
test.csv 173KB
风险模型预测-最终版.pptx 2.78MB
models
dtc.py 704B
lgb.py 3KB
_GaussianNB.py 916B
_xgb.py 1KB
_lgb.py 3KB
MNBC.py 1KB
_GBDT.py 744B
AdaBoost.py 718B
randomforest.py 649B
README.md 3KB
共 50 条
- 1
资源评论
程序员张小妍
- 粉丝: 1w+
- 资源: 2599
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功