没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
11页
本资源为原创论文的word版。 可用于机器学习课程的结课论文。 本文在对Lending Club数据集进行初步数据分析的基础上,通过选取4组不同的特征,采用同一种算法(逻辑回归,LR)进行分类预测,最终确定3个相对较优特征为:loan_amnt,annual_inc,term。随后本文针对“多源数据集”,采用神经网络、贝叶斯分类器和决策树三种算法对数据进行分类预测,最终综合三种算法的模型结果参数,确定决策树为三者最优。最后,本文仍选取Lending Club数据集作为研究对象,经预处理后,选取数据的55个特征,并将二分类问题变为三分类问题。之后,采用单一树类模型——决策树,以及集成树类模型——随机森林和极端随机树对数据进行分类预测,对比模型结果参数,得出结论:集成算法相比较于单一算法有更好的准确度和泛化能力,但是相应模型也会消耗更多计算机资源。
资源推荐
资源详情
资源评论
___________________________
收稿日期:
作者简介:.
基于多种机器学习算法的分类预测研究
(**大学)
摘 要:本文在对 Lending Club 数据集进行初步数据分析的基础上,通过选取 4 组不同的特征,采用同一种算法
(逻辑回归,LR)进行分类预测,最终确定 3 个相对较优特征为:loan_amnt,annual_inc,term。随后本文针对
“多源数据集”,采用神经网络、贝叶斯分类器和决策树三种算法对数据进行分类预测,最终综合三种算法的模
型结果参数,确定决策树为三者最优。最后,本文仍选取 Lending Club 数据集作为研究对象,经预处理后,选取
数据的 55 个特征,并将二分类问题变为三分类问题。之后,采用单一树类模型——决策树,以及集成树类模型—
—随机森林和极端随机树对数据进行分类预测,对比模型结果参数,得出结论:集成算法相比较于单一算法有更
好的准确度和泛化能力,但是相应模型也会消耗更多计算机资源
关键词:逻辑回归;神经网络;贝叶斯分类器;决策树;随机森林;极端随机树;分类预测
中图分类号:TP181 文献标志码:A
Research on classification prediction based on multiple machine
learning algorithms
()
Abstract:Based on the preliminary data analysis of Lending Club dataset, this paper selects 4 groups of
different features and uses the same algorithm (logical regression, LR) for classification prediction, and
finally determines 3 relatively superior features: loan_ amnt,annual_ inc,term。 Then, for the "multi-
source data set", this paper uses three algorithms, namely, neural network, Bayesian classifier and
decision tree, to classify and predict the data, and finally integrates the model result parameters of the
three algorithms to determine that the decision tree is the best of the three. Finally, the Lending Club
dataset is still selected as the research object. After preprocessing, 55 features of the data are selected, and
the two classification problem is changed into a three classification problem. Then, the single tree model
decision tree and the integrated tree model random forest and extreme random tree are used to classify
and predict the data. Comparing the model result parameters, the conclusion is drawn that the integrated
algorithm has better accuracy and generalization ability than the single algorithm, but the corresponding
model will also consume more computer resources
Key words : Logical regression; Neural network; Bayesian classifier; Decision tree; Random forest;
Extreme random tree; Classified forecast
近年来随着网络时代的迅速发展,互联网金融
产品迅猛发展起来,并逐步改变人类的生活和储蓄
方式,大型的借贷平台也逐渐兴起
[1]
,LendingClub
是其中一家发展迅速、运作较好的大型 P2P(Peer
to Peer)交易平台,由于 P2P 平台交易门槛低、流
程简单、投资回报率高等优势
[2]
,迅速吸引了大批
量客户进入市场,从中也衍生出了一些违规贷款和
欺诈事件,所以本文以 Lending Club 公司的部分批
贷数据进行建模分析,通过 Logistic Regression(LR)
分类预测的方法进行风险评估,提高 P2P 平台关于
违约率较高客户的识别能力,从而为该平台及公司
提供科学决策依据。
此外,本文针对“多源数据”集,选取 3 种机器
学习算法:神经网络,贝叶斯分类器和决策树,深
入比较多种算法之间的运算效果,分析各种算法的
优势和劣势。
最后,本文针对 Lending Club 的批贷数据集和
相关算法进行深入研究,将原来的二分类问题,变
为三分类问题。进一步,在使用决策树这种单一树
类模型进行分类后, 也使用两种集成树类算法—
—随机森林和极端随机树模型,对数据进行预测分
类。最终,综合三种算法,比较了它们的优势和劣
势。
1 不同特征对于预测结果差异的比较
该部分本文在对 Lending Club 数据集进行初步
数据分析的基础上,通过选取 4 组不同的特征,采
用同一种算法(逻辑回归,LR)进行分类预测,
比较 4 组模型结果参数的差异,选出其中相对最优
的特征。
1.1 LR 算法的介绍
逻辑回归(Logistic Regression, LR)采用线性
的方式进行分类
[3]
,有效地将回归问题与分类问题
进行了结合。
考虑二分类任务,其输出标记
{0,1}y Î
,而
线性回归模型产生的预测值
z=
T
x b
w
+
是实值,于
是,我们需将实值
z
转换为
0 / 1
值。最理想的是
“单位跃迁函数”
0, 0
0.5, 0
1, 0
z
y z
z
<
ì
ï
= =
í
ï
>
î
若预测值
z
大于零就判为正例,小于零则判为反
例,预测值为临界值零则可以任意判别,但由于单
位跃迁函数不连续,我们可以用对数几率函数
1
1
z
y
e
-
=
+
来代替单位跃迁函数。单位跃迁函数和对数几率函
数如图 1.
图 1 单位跃迁函数与对数几率函数
Fig.1 Unit transition function and logarithmic probability
function
将逻辑 回归的 公 式进行 整理,我 们可以得
到:
log
1
T
p
x
p
q
=
-
其中,
( 1| )p P y x= =
,也就是将给定输入
x
预测为正样本的概率。在自变量
x
和超参数
q
确
定的情况下,逻辑回归可以看作广义线性模型
(Generalized Linear Models)在因变量
y
服从二元分
布时的一个特殊情况。本文主要利用 Logistic
Regression 在处理二分类问题时简单高效的优势,
对本文的 Lending Club 数据进行分类预测。
1.2 分类预测评价指标的介绍
对 于 二 分 类 问 题 , 主 要 采 用 Recall ,
Precision,Accuracy,F1-score,P-R 曲线,ROC 曲
线,AUC 曲线等指标进行评价,在评价时可依据
混淆矩阵来进行
[4]
:
(1) 召回率(Recall):分类正确的正样本个数占真正
的正样本个数的比例:
TP
TP FN
Recall =
+
(2) 准确率(Precision):分类正确的正样本总数与
分类器判别为正样本的样本总数的比例:
P
Precision
TP
TP F+
=
(3) F1-score:召回率和准确率的调和平均值,可
以综合反应模型的性能:
2
1
Re Pr
Recall Prec
n
F score
call eci
o
sio
isi n×
- =
+
×
(4) P-R 曲线:一个综合的图形指标,用来衡量分
类模型的拟合效果,图形中横轴是 Recall 值,
纵轴是 Precision 值。
(5) 正确率(Accuracy):分类正确的样本个数占总
样本个数的比例:
TP TN
TP FP TN FN
Accuracy
+ + +
=
+
(6) ROC 曲线 : ROC 曲 线 的 横 坐 标 为 假 阳 性 率
(False Positive Rate, FPR),纵坐标为真阳性率
(True Positive Rate, TPR)所构成的曲线。其中
FPR
FP
N
=
,
TPR
TP
P
=
.
(7) AUC:是 ROC 曲线下的面积大小,该值能够
量化反映出基于 ROC 曲线的模型性能,AUC
值为沿着 ROC 曲线横轴的积分值,其值越接
近于 1,模型效果越好。
对于上述公式中字符的含义,可以用如下的二
分类混淆矩阵表示,如表 1:
表 1 二分类矩阵
Tab.1 Dichotomous matrix
Predicted
Positive
Negative
Total
Positive
True Positive(TP)
False Negative(FN)
P
Actual
Negative
False Positive(FP)
True Negative(TN)
N
Total
P’
N’
1.3 Lending Club 的数据描述与分析
本文数据是 Lending Club 公司对一段时间内贷
款客户信息的整理,原始数据包含 77159 个样本,
108 维特征,特征数据包含整型、浮点型、类别型
和字符型的数据。预测变量为客户的贷款状态,包
含 的 取 值 有 : ’Fully Paid’ , ’Current’ , ’Charged
Off’ , ’Late (31-120 days)’ , ’In Grace
Period’,’Late (16-30 days)’,’Default’,由于本文
主要是为了识别违约客户,所以这里将’Fully Paid’
和’Current’视为正常客户,标记为 0,其他情况
的 ’Charged Off’ , ’Late (31-120 days)’ , ’In Grace
Period’,’Late (16-30 days)’,’Default’视为违约客
户,标记为 1.
接下来,本文针对客户的贷款状态以及某些特
征进行初步数据分析:表 2 为正常客户和违约客户
的统计信息,图 2 为不同贷款状态(loan_status)的
客户数量统计图:
表 2 正常客户和违约客户的统计信息
Tab.2 Statistics of normal customers and default customers
客户数
占比
标记
正常客户
66328
85.96%
0
违约客户
10831
14.04%
1
图 2 各类贷款状态数量统计
Fig.2 Statistics of various loan status
图 3 为 贷 款 额 度 (loan_amnt) 和 贷 款 状 态
(loan_status)的箱型图,可以发现,随着贷款状况
的下降,贷款额度呈现轻微上升趋势,可以猜测,
二者有着一定的联系。
图 3 贷款额度与贷款状态箱型图
Fig.3 Box chart of loan amount and loan status
图 4 为不同信用等级(grade)的违约客户占比,
可以看出随着信用等级由 A 向 F 降低,违约客户
的占比越来越高,而 G 等级的违约客户占比较
低,可能的原因是贷款公司对信用等级为 G 等级
的用户审核条件更加严格。
图 4 不同信用等级的违约客户占比
Fig.4 Proportion of defaulting customers with different grade
图 5 为不同总还款月份(term)的违约客户占
比,可以看出:总还款月份为 60 个月的违约客户
占比明显高于 36 个月的违约客户占比。推测可能
的原因是前者的还款压力更大,工作不确定性也更
大。
剩余10页未读,继续阅读
资源评论
四口鲸鱼爱吃盐
- 粉丝: 2487
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功