基于多种机器学习算法的分类预测研究_多种机器学习算法集成资源-CSDN文库

需积分: 39 193 浏览量 2022-11-16 14:22:29 上传评论收藏 1.81MB DOC 举报

资源推荐

资源详情

资源评论

___________________________

收稿日期：

作者简介：.

基于多种机器学习算法的分类预测研究

（**大学）

摘要：本文在对 Lending Club 数据集进行初步数据分析的基础上，通过选取 4 组不同的特征，采用同一种算法

（逻辑回归，LR）进行分类预测，最终确定 3 个相对较优特征为：loan_amnt，annual_inc，term。随后本文针对

“多源数据集”，采用神经网络、贝叶斯分类器和决策树三种算法对数据进行分类预测，最终综合三种算法的模

型结果参数，确定决策树为三者最优。最后，本文仍选取 Lending Club 数据集作为研究对象，经预处理后，选取

数据的 55 个特征，并将二分类问题变为三分类问题。之后，采用单一树类模型——决策树，以及集成树类模型—

—随机森林和极端随机树对数据进行分类预测，对比模型结果参数，得出结论：集成算法相比较于单一算法有更

好的准确度和泛化能力，但是相应模型也会消耗更多计算机资源

关键词：逻辑回归；神经网络；贝叶斯分类器；决策树；随机森林；极端随机树；分类预测

中图分类号：TP181 文献标志码：A

Research on classification prediction based on multiple machine

learning algorithms

()

Abstract：Based on the preliminary data analysis of Lending Club dataset, this paper selects 4 groups of

different features and uses the same algorithm (logical regression, LR) for classification prediction, and

finally determines 3 relatively superior features: loan_ amnt，annual_ inc，term。 Then, for the "multi-

source data set", this paper uses three algorithms, namely, neural network, Bayesian classifier and

decision tree, to classify and predict the data, and finally integrates the model result parameters of the

three algorithms to determine that the decision tree is the best of the three. Finally, the Lending Club

dataset is still selected as the research object. After preprocessing, 55 features of the data are selected, and

the two classification problem is changed into a three classification problem. Then, the single tree model

decision tree and the integrated tree model random forest and extreme random tree are used to classify

and predict the data. Comparing the model result parameters, the conclusion is drawn that the integrated

algorithm has better accuracy and generalization ability than the single algorithm, but the corresponding

model will also consume more computer resources

Key words ： Logical regression; Neural network; Bayesian classifier; Decision tree; Random forest;

Extreme random tree; Classified forecast

近年来随着网络时代的迅速发展，互联网金融

产品迅猛发展起来，并逐步改变人类的生活和储蓄

方式，大型的借贷平台也逐渐兴起

[1]

，LendingClub

是其中一家发展迅速、运作较好的大型 P2P（Peer

to Peer）交易平台，由于 P2P 平台交易门槛低、流

程简单、投资回报率高等优势

[2]

，迅速吸引了大批

量客户进入市场，从中也衍生出了一些违规贷款和

欺诈事件，所以本文以 Lending Club 公司的部分批

贷数据进行建模分析，通过 Logistic Regression(LR)

分类预测的方法进行风险评估，提高 P2P 平台关于

违约率较高客户的识别能力，从而为该平台及公司

提供科学决策依据。

此外，本文针对“多源数据”集，选取 3 种机器

学习算法：神经网络，贝叶斯分类器和决策树，深

入比较多种算法之间的运算效果，分析各种算法的

优势和劣势。

最后，本文针对 Lending Club 的批贷数据集和

相关算法进行深入研究，将原来的二分类问题，变

为三分类问题。进一步，在使用决策树这种单一树

类模型进行分类后，也使用两种集成树类算法—

—随机森林和极端随机树模型，对数据进行预测分

类。最终，综合三种算法，比较了它们的优势和劣

势。

1 不同特征对于预测结果差异的比较

该部分本文在对 Lending Club 数据集进行初步

数据分析的基础上，通过选取 4 组不同的特征，采

用同一种算法（逻辑回归，LR）进行分类预测，

比较 4 组模型结果参数的差异，选出其中相对最优

的特征。

1.1 LR 算法的介绍

逻辑回归（Logistic Regression, LR）采用线性

的方式进行分类

[3]

，有效地将回归问题与分类问题

进行了结合。

考虑二分类任务，其输出标记

{0,1}y Î

，而

线性回归模型产生的预测值

x b

是实值，于

是，我们需将实值

转换为

0 / 1

值。最理想的是

“单位跃迁函数”

0, 0

0.5, 0

1, 0

y z

= =

若预测值

大于零就判为正例，小于零则判为反

例，预测值为临界值零则可以任意判别，但由于单

位跃迁函数不连续，我们可以用对数几率函数

来代替单位跃迁函数。单位跃迁函数和对数几率函

数如图 1.

图 1 单位跃迁函数与对数几率函数

Fig.1 Unit transition function and logarithmic probability

function

将逻辑回归的公式进行整理，我们可以得

到：

log

其中，

( 1| )p P y x= =

，也就是将给定输入

预测为正样本的概率。在自变量

和超参数

确

定的情况下，逻辑回归可以看作广义线性模型

(Generalized Linear Models)在因变量

服从二元分

布时的一个特殊情况。本文主要利用 Logistic

Regression 在处理二分类问题时简单高效的优势，

对本文的 Lending Club 数据进行分类预测。

1.2 分类预测评价指标的介绍

对于二分类问题，主要采用 Recall ，

Precision，Accuracy，F1-score，P-R 曲线，ROC 曲

线，AUC 曲线等指标进行评价，在评价时可依据

混淆矩阵来进行

[4]

：

(1) 召回率(Recall)：分类正确的正样本个数占真正

的正样本个数的比例：

TP FN

Recall =

(2) 准确率(Precision)：分类正确的正样本总数与

分类器判别为正样本的样本总数的比例：

Precision

TP F+

(3) F1-score：召回率和准确率的调和平均值，可

以综合反应模型的性能：

Re Pr

Recall Prec

F score

call eci

sio

isi n×

- =

(4) P-R 曲线：一个综合的图形指标，用来衡量分

类模型的拟合效果，图形中横轴是 Recall 值，

纵轴是 Precision 值。

(5) 正确率(Accuracy)：分类正确的样本个数占总

样本个数的比例：

TP TN

TP FP TN FN

Accuracy

+ + +

(6) ROC 曲线： ROC 曲线的横坐标为假阳性率

(False Positive Rate, FPR)，纵坐标为真阳性率

(True Positive Rate, TPR)所构成的曲线。其中

FPR

，

TPR

(7) AUC：是 ROC 曲线下的面积大小，该值能够

量化反映出基于 ROC 曲线的模型性能，AUC

值为沿着 ROC 曲线横轴的积分值，其值越接

近于 1，模型效果越好。

对于上述公式中字符的含义，可以用如下的二

分类混淆矩阵表示，如表 1：

表 1 二分类矩阵

Tab.1 Dichotomous matrix

Predicted

Positive

Negative

Total

Positive

True Positive(TP)

False Negative(FN)

Actual

Negative

False Positive(FP)

True Negative(TN)

Total

P’

N’

1.3 Lending Club 的数据描述与分析

本文数据是 Lending Club 公司对一段时间内贷

款客户信息的整理，原始数据包含 77159 个样本，

108 维特征，特征数据包含整型、浮点型、类别型

和字符型的数据。预测变量为客户的贷款状态，包

含的取值有： ’Fully Paid’ ， ’Current’ ， ’Charged

Off’ ， ’Late (31-120 days)’ ， ’In Grace

Period’，’Late (16-30 days)’，’Default’，由于本文

主要是为了识别违约客户，所以这里将’Fully Paid’

和’Current’视为正常客户，标记为 0，其他情况

的 ’Charged Off’ ， ’Late (31-120 days)’ ， ’In Grace

Period’，’Late (16-30 days)’，’Default’视为违约客

户，标记为 1.

接下来，本文针对客户的贷款状态以及某些特

征进行初步数据分析：表 2 为正常客户和违约客户

的统计信息，图 2 为不同贷款状态(loan_status)的

客户数量统计图：

表 2 正常客户和违约客户的统计信息

Tab.2 Statistics of normal customers and default customers

客户数

占比

标记

正常客户

66328

85.96%

违约客户

10831

14.04%

图 2 各类贷款状态数量统计

Fig.2 Statistics of various loan status

图 3 为贷款额度 (loan_amnt) 和贷款状态

(loan_status)的箱型图，可以发现，随着贷款状况

的下降，贷款额度呈现轻微上升趋势，可以猜测，

二者有着一定的联系。

图 3 贷款额度与贷款状态箱型图

Fig.3 Box chart of loan amount and loan status

图 4 为不同信用等级(grade)的违约客户占比，

可以看出随着信用等级由 A 向 F 降低，违约客户

的占比越来越高，而 G 等级的违约客户占比较

低，可能的原因是贷款公司对信用等级为 G 等级

的用户审核条件更加严格。

图 4 不同信用等级的违约客户占比

Fig.4 Proportion of defaulting customers with different grade

图 5 为不同总还款月份(term)的违约客户占

比，可以看出：总还款月份为 60 个月的违约客户

占比明显高于 36 个月的违约客户占比。推测可能

的原因是前者的还款压力更大，工作不确定性也更

大。

剩余10页未读，继续阅读

评论收藏

内容反馈

四口鲸鱼爱吃盐

粉丝: 2487
资源: 4

基于多种机器学习算法的分类预测研究

MATLAB实现SSA-CNN麻雀算法优化卷积神经网络数据分类预测（完整源码和数据）

【预测模型】基于机器学习算法实现特征值分类附matlab代码 上传.zip

机器学习结课论文-基于多种机器学习算法的分类预测研究

fun_with_forecasting:多种机器学习预测模型

论文研究-使用多种机器学习算法预测CTL模型检测 .pdf

城市扩展模拟预测：多种机器学习算法的比较.docx

基于多种植被指数时间序列与机器学习的作物遥感分类研究.pdf

基于python实现的机器学习预测系统汇总+GUI界面(贝叶斯网络、马尔科夫模型、线性回归、岭回归多项式回归、决策树等).zip

人工智能项目资料-基于多种深度学习算法对碱基编辑结果预测的研究.zip

基于机器学习算法的特征值分类附MATLAB代码R2019b.zip

Credit_Risk_Analysis:使用机器学习算法进行分析以使用LendingClub的数据集识别信用卡风险

基于XGBoost与多种机器学习方法的房价预测模型.pdf

基于多种机器学习算法的波士顿房价预测_田润泽.caj

Python-基于TensorFlowPyTorch的50多种机器学习模型和测试

基于多种主色调的图像检索算法研究与实现

论文研究-基于自适应多种群的粒子群优化算法.pdf

基于机器学习算法的特征值分类附MATLAB代码R2019b.zip.zip

进行一些Matlab的学习，也基于Matlab进行机器学习的练习.rar

用机器学习来预测学生成绩表现-python实现

基于机器学习的加密流量流特征实现流量异常二分类python源码(附项目说明+数据+详细注释).zip

NLP期末作业-基于机器学习的文本分类-解法+源代码+文档说明

一种基于多种群学习机制的萤火虫优化算法 (2013年)

基于网络结构的多种用户影响力分析算法对比研究

基于影像学的多种人工智能算法在肿瘤研究中的应用进展

论文研究-基于信息熵的异类多种群蚁群算法.pdf

基于多种算法的火电厂配煤优化方法研究

编码多源数据集（预处理后的多源数据集）

LendingClub2018-2020部分数据和字段释义

基于Spark和Kubernetes的机器学习平台+源代码+文档说明

最新资源

【预测模型】基于机器学习算法实现特征值分类附matlab代码上传.zip