【免费】MBA课程报告《数据、模型和决策》（银行信贷风险评估模型）资源-CSDN文库

共42个文件

png：23个

jpg：4个

txt：3个

需积分: 0 34 浏览量更新于2023-05-21 1 收藏 9.91MB ZIP 举报

（1）数据选取：银行客户信贷业务交易数据。数据分为训练数据集(train.csv)和测试数据集(test.csv) （2）数据来源：某股份制商业银行。（3）数据背景介绍：信用风险是金融监管机构重点关注的风险，关乎金融系统运行的稳定，银行会根据客户的资质来评定，比如征信，贷款额度，贷款的用途，贷款的时间，还款的能力，收入的稳定性等多方面去分析。在实际业务开展和模型构建过程中，面临着高维稀疏特征以及样本不平衡等各种问题，应用机器学习等数据挖掘方法提高信用风险的评估和预测能力，是各家金融机构积极探索的方向。（4）分析工具：本次课程在对数据进行处理、探索、建模和决策分析的过程中，使用Python程序语言和机器学习系统XGBoost。

收起资源包目录

45 MBA课程报告《数据、模型和决策》（复用银行信贷风险评估模型）.zip （42个子文件）

45 MBA课程报告《数据、模型和决策》（复用银行信贷风险评估模型）

参考资料

03 银行信贷风险代码注释 20200523

运行结果.rar 646KB

银行信贷风险评估模型代码分析.pdf 1.41MB

银行信贷风险评估模型代码分析.doc 930KB

【导出】银行信贷风险评估模型.html 1.05MB

客户答疑0529.doc 76KB

模型.py 6KB

train.csv 26.09MB

数据探索分析.py 10KB

运行结果

Figure_21.png 49KB

Figure_4.png 65KB

Figure_19.png 28KB

Figure_13.png 23KB

Figure_16.png 26KB

Figure_23.png 42KB

Figure_2.png 10KB

Figure_5.png 20KB

Figure_11.png 28KB

Figure_9.png 40KB

Figure_20.png 54KB

Figure_18.png 34KB

Figure_8.png 88KB

Figure_7.png 16KB

Figure_12.png 27KB

Figure_15.png 21KB

Figure_6.png 32KB

Figure_10.png 25KB

Figure_3.png 11KB

Figure_22.png 96KB

Figure_17.png 34KB

Figure_1.png 4KB

Figure_14.png 25KB

456.docx 19KB

模型.txt 4KB

数据探索分析.txt 7KB

test.csv 7.71MB

客户要求

微信图片_20200818151451.jpg 257KB

微信图片_20200818151500.jpg 162KB

微信图片_20200818151456.jpg 152KB

要求.txt 751B

微信图片_20200818151445.jpg 230KB

模型流程图.vsdx 53KB

《数据、模型与决策》课程作业.docx 355KB

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源预览

资源评论

银行信贷风险评估模型代码分析

一、背景概要

信贷业务又称为信贷资产或贷款业务，是商业银行最重要的

资产业务，通过放款收回本金和利息，扣除成本后获得利润，所

以信贷是商业银行的主要赢利手段。

二、代码解析

1 相关技术背景

XGBoost 是一套提升树可扩展的机器学习系统。目标是设计

和构建高度可扩展的端到端提升树系统。提出了一个理论上合理

的加权分位数略图来计算候选集。引入了一种新颖的稀疏感知算

法用于并行树学习。提出了一个有效的用于核外树形学习的缓存

感知块结构。用缓存加速寻找排序后被打乱的索引的列数据的过

程。XGBoost 是一个树集成模型，他将 K（树的个数）个树的结

果进行求和，作为最终的预测值。

2 算法解析

使用机器学习建模的一般流程。分为两大部分：数据处理和

模型学习。第一部分需要大量的知识对原始数据进行清理及特征

提取；第二部分模型学习，涉及长时间的模型参数调整，调整方

向和策略需要根据经验来灵活调整。当模型效果不理想时，考虑

的调整策略：

（a）调节正负样本的权重参数。

（b）更换模型算法。

（c）同时几个使用模型进行预测，然后取去测的最终结果。

（d）使用原数据，生成新特征。

1. Logistic 函数

Logistic 回归模型中的因变量只有 1 和 0（发生于不发生）

两种。假设在 p 个独立自变量 x1，x2…xp 作用下，y 取 1 的概

率是 p = P（y = 1|X）取 0 的概率是 1-p，取 1 和取 0 的概率之

比为：P/(1-P);称为事件的优势比（odds），对 odds 取自然对

数得 Logistic 变换。

2.Logistic 回归建模步骤

（a）根据分析目的设置指标变量(因变量和自变量),然后收

集数据，根据收集到的数据，对特征再次进行筛选;

#特征重要程度情况

ax = xgb.plot_importance(model)

fig = ax.figure

fig.set_size_inches(15,10)

（b）y 取 1 的概率是 p= P(y= 1|X)，取 0 概率是 1-p。用

ln(p/(1−p))和自变量列出线性回归方程，估计出模型中的回归

系数;

（c）进行模型检验。模型有效性的检验指标有很多，最基本

的有正确率，其次有混淆矩阵、ROC 曲线、KS 值等。

（d）模型应用:输入自变量的取值，就可以得到预测变量的值，

或者根据预测变量的值去控制自变量的取值。

实例：

gender

age

dist

edu

job

lmt

basicLevel

x_0

x_1

640500

5.963

640600

6.467

641200

0.596

340821

6.3

732628

6.7

利用 Scikit-Learn 对这个数据进行逻辑回归分析。首先进行

特征筛选，特征筛选的方法有很多，主要包含在 Scikit_Learn

的 feature_ selection 库中,比较简单的有通过 F 检验(f_

regression)来给出各个特征的 F 值和 p 值，从而可以筛选变量

(选择 F 值大的或者 p 值小的特征)。其次有递归特征消除

( Recursive Feature Elimination, RFE) 和稳定性选择

(StabilitySelection)等比较新的方法。这里使用了稳定性选择

方法中的随机逻辑回归进行特征筛选，然后利用筛选后的特征建

立逻辑回归模型，输出平均正确率。

3.数据源内容解读

数据集,可以看到数据样本中有很多列属性。

train_df = pd.read_csv("D:/files/train.csv")

test_df = pd.read_csv("D:/files/test.csv")

4.Python 主要数据预处理函数

在数据挖掘中，海量的原始数据中存在着大量不完整(有缺

失值)、不一致、有异常的数据，严重影响到数据挖掘建模的执

行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗就显

得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、

转换、规约等一系列的处理，该过程就是数据预处理。数据预处

理一方面是要提高数据的质量，另一方面是要让数据更好地适应

特定的挖掘技术或工具。

5.二分类

对于二分类模型，其实既可以构建分类器，也可以构建回归。

# predict train

predict_train = model.predict(dtrain)

train_auc = evaluate_score(predict_train, y_train)

# predict validate

predict_valid = model.predict(dvalid)

valid_auc = evaluate_score(predict_valid, y_valid)

print('train auc = {:.7f} , valid auc = {:.7f}\n'.format(train_auc,

valid_auc))

三、模型训练

数据处理需要花费大量的精力，说明在机器学习中数据准备

的工作很重要，有了好的数据才能预测出好的分类结果，对于二

分类问题，一般情况下，首选逻辑回归。

#模型训练

model = xgb.train(dict(xgb_params),

dtrain,

evals=watchlist,

verbose_eval=50,

early_stopping_rounds=100,

num_boost_round=4000)

#利用最佳迭代次数，再次利用全量数据训练模型

print('---> training on total dataset to predict test and submit')

model = xgb.train(dict(xgb_params),

dtrain_all,

num_boost_round=best_num_boost_rounds)

# predict validate

predict_valid = model.predict(dvalid)

valid_auc = evaluate_score(predict_valid, y_valid)

print('

预测的验证集

AUC

指标：

', valid_auc)

===> feature count: 103

scale_pos_weight = 1

train: 91826, valid: 10203, test: 30000

[0] train-auc:0.50000 valid-auc:0.50000

Multiple eval metrics have been passed: 'valid-auc' will be used for early

stopping.

Will train until valid-auc hasn't improved in 100 rounds.

[50] train-auc:0.64097 valid-auc:0.65167

[100] train-auc:0.65153 valid-auc:0.67749

[150] train-auc:0.67276 valid-auc:0.72217

[200] train-auc:0.68959 valid-auc:0.73652

[250] train-auc:0.71319 valid-auc:0.73802

[300] train-auc:0.74216 valid-auc:0.73880

Stopping. Best iteration:

[241] train-auc:0.70966 valid-auc:0.73982

train auc = 0.7646057 , valid auc = 0.7385212

---> cv train to choose best_num_boost_round

呱牛doit

粉丝: 341
资源: 50

MBA课程报告《数据、模型和决策》（银行信贷风险评估模型 ）

MBA数据模型与决策案例-货车租赁策略管理报告[参考].pdf

MBA第九章数据模型决策.pdf

MBA数据模型与决策考试复习资料要点.doc

MBA数据、模型和决策：“亚太地区的商学院”案例分析.doc

DMD数据模型与决策管理科学基础

MBA-数据模型与决策2完美版资料.ppt

Clementine 可视化数据挖掘应用实例-银行信贷规则评估

MBA数据、模型及决策：亚太地区的商学院案例分析.doc

数据、模型与决策

数据模型与决策管理科学篇excel求解

重庆大学MBA数学、模型及决策.doc

MBA课程——决策.ppt

中国MBA发展报告

XXXX信息管理MBA课程三——数据挖掘与商务智能.pptx

【MBA智库】最全的理论工具，思维模型：100个工具(近2000页）.pdf

MBA必修核心课程 生产作业

《点燃我温暖你》中李峋的同款爱心代码

DeepSeek本地部署-deepseek本地部署

DeepSeek-V3-deepseek

yolov11源码+yolov11n、s、m.pt文件整合8.3.20版本

Python学习笔记(干货) 中文PDF完整版.pdf

python3.12对应的dlib-19.24.99-cp312-cp312-win-amd64

Google Chrome浏览器ChromeDriver驱动下载(Chrome版本：133.0.6943.60)win64

Python入门基础教程全套.ppt

深度解读：DeepSeek API从入门到精通及应用场景详解

yolov8源码+yolov8n、s、m.pt文件整合8.2.0版本

OllamaSetup

PUBG罗技宏代码免费

最新资源

MBA课程报告《数据、模型和决策》（银行信贷风险评估模型）

MBA必修核心课程生产作业