没有合适的资源?快使用搜索试试~ 我知道了~
基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 50 浏览量
2022-06-26
15:20:55
上传
评论
收藏 402KB DOCX 举报
温馨提示
试读
11页
基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用.docx
资源推荐
资源详情
资源评论
1 引言
信用评分
[1
]
的历史可以追溯到 20 世纪 50 年代。早期信用评分通常采用称为
5C 的 判 断 方 法 , 即 性 格 ( Character ) 、 资 本 ( Capital ) 、 抵 押 物
(Collateral)、还款能力(Capacity)和市场情况(Condition)
[2
]
。对于申请
人,信用评分取得的分数越高,其获得借款的概率和额度也越高。
信用评分可以分为两种类型:第一种是申请评分 ,即将申请信用评分的申请
人分为“好”和“差”两种类型,其分类主要参照申请人的人口统计信息和财务信息 ;
第二种是行为评分,除了人口统计信息和财务信息以外,同时考虑申请者相关的历
史交易记录
[3
,4
]
。本文主要研究内容是申请评分。
在研究信用评分的过程中,需要解决的关键问题主要有特征提取和特征选择、
选择合适的分类器或分类器的组合、分类器的优化、采用交叉验证以获得较为
准确的结果等。这些都构成了本文的主要研究内容。
2 相关工作
由于申请者数据(人口统计信息和财务信息)的不确定性 ,采用统计学方法
很难取得比较好的效果,如判别分析、线性回归
[5
,6
]
,但是这些方法存在诸如需要对
变量进行假设等附加要求。因此,使用机器学习算法可以有效克服这些问题
[7
]
。前
人的研究中采用了许多机器学习算法,包括模糊系统
[8
]
、神经网络
[9
,10
,11
]
、支持向量
机(Support Vector Machine,SVM )
[12
]
、K 最近邻算法
[13
]
、遗传算法
[14
]
、决策
树
[15
]
等。上述方法的效果都要优于传统统计学方法
[16
,17
,18
]
。但是这些方法也需要
改进,如有些方法需要大量参数优化,从而易产生局部最优、过拟合、学习系统过
于复杂等问题。为了解决这些问题,本文提出一种新的分类器框架,针对上述问题
给出了相应的解决思路和方法。
在分类任务中,人们通常会尝试集成多种机器学习算法,以提高分类的精度。
通过不同方法可以创建不同的分类器,如对同一分类器使用不同的训练集、对同
一分类器使用不同参数、使用多种分类器、在分类器学习过程中引入随机性等 。
也可以通过不同方法组合不同的分类器,如分类器融合、分类器选择、级联分类
器等。与单个分类器相比,集成方法通常可以取得更好的效果
[19
]
。如今,比较流行
的集成学习方法有 Bagging、AdaBoost、随机森林、Stacking 等
[20
,21
,22
]
。同时,
在信用评分领域中,集成学习也有较为广泛的应用
[23
,24
,25
,26
,27
,28
,29
]
。
人们有时也会从自然生物行为中获得改进机器学习方法的启发 ,从而提出一
些可以解决复杂问题的新方法。例如,进化计算(Evolutionary Computation)
就是对生物进化的模仿,通过迭代模拟生物进化的过程,把要解决的问题看作环境,
在一些可能的解组成的种群中,通过自然演化寻求最优解。进化计算的一些著名
的 算 法 包 括 进 化 编 程 ( Evolutionary Programming )
[30
]
、 进 化 策 略
(Evolutionary Strategy)
[31
]
、遗传规划(Genetic Programming)
[32
]
、遗传算
法(Genetic Algorithm)
[33
]
、差异进化(Differential Evolution)
[34
]
和学习分类
器系统(Learning Classifier System)
[35
]
等。在近年来的研究中,遗传算法在优
化部分的表现较为突出,可以用于多种分类器的优化
[36
,37
]
和分类器的集成
[38
]
,同时
在信用评分领域,遗传算法也有相关应用
[39
,40
]
。
基于上述方法,之前研究提出了一种两层的分类器框架
[41
]
。该框架由若干支
持向量机组成,其训练过程分为两个阶段,每个阶段对应框架中的一层。
第一阶段主要进行样本的属性处理和支持向量机训练 ,支持向量机的作用是
拟合样本属性和样本对应的标签。其流程依次为数据规范化、特征提取、特征
选择和支持向量机参数优化,其中特征选择和参数优化通过遗传算法完成,适应度
函数为准确率。
第二阶段主要对第一阶段拟合完成的支持向量机预测结果进行集成 ,即对第
一阶段的支持向量机结果进行评价与选择。该阶段支持向量机的作用是拟合所
有样本在第一阶段支持向量机的预测结果与样本对应标签。其流程依次为第一
阶段的支持向量机选择和第二阶段支持向量机参数优化,其中第一阶段支持向量
机选择通过遗传算法完成,适应度函数为准确率。
两个阶段的支持向量机拟合过程都采用 k 折交叉验证,从而使数据集的每个
样本都可以作为测试集用于支持向量机的特征选择,同时也尽可能避免了过拟合
现象。
上述研究方法可以根据样本属性对样本的标签进行预测 ,但是仍然具有以下
改进空间。
(1)通过第二阶段的支持向量机可以对第一阶段的支持向量机预测结果进
行集成,以此类推,通过对前一层的支持向量机集成可以获得更好的结果。
(2)第二阶段仅关注第一阶段支持向量机的预测结果,却忽视了样本属性对
预测结果的影响。
(3)遗传算法的适应度函数较为单一,优化得到的参数具有片面性。
本文在前人研究的基础上做出以下改进。
(1)层数加深:由于使用分类器对若干分类器的预测结果进行评估并选择,
以提高预测精度,如本文在对第一层分类器进行选择之后,对第二层分类器分类进
行再次选择。
(2)属性复用:通过层数加深,可以提高分类器的预测精度,但同时样本属
性对预测的影响也会降低,所以在框架的最后一层,将样本属性与倒数第二层的分
类器选择结果组合以进行最后一层的分类器训练。
(3)适应度函数多样化:引入其他适应度函数,从而避免单一适应度函数可
能造成的未找到最佳参数的现象。
3 方法说明
本文所使用框架流程如图
1
所示,其中选择指标包括测试集误判数量总和以
及准确率。通过使用最佳的算法,可以得到最好的分类结果。
图 1
图 1本文研究框架
Fig.1The Framework of Research
3.1 数据预处理
为了减少数据集本身对分类器性能的影响,在数据预处理阶段对数据依次使
用数据规范化、特征提取、特征选择三种方法进行处理。其中,数据规范化采用
Z 分 数 标 准 化 ( Z-Score Standardization ) 、 最 大 最 小 归 一 化 ( Min-Max
Scaling ) 两 种 方 法 ; 特 征 提 取 采 用 主 成 分 分 析 ( Principal Component
Analysis,PCA ) 、 遗 传 算 法 两 种 方 法 ; 特 征 选 择 采 用 遗 传 算 法 ( Genetic
Algorithm)。
3.2 分类器设计
(1)分类器设计思路
分层训练的训练过程使用逐层训练的方式。级联结构是一种多层级联的训
练框架,通过算法将不同层的训练结果进行结合。在前向传播设计方面,基于级联
结构、后续层的分类器会通过前一层的反馈进行训练。在优化分类器结构时 ,通
过遗传算法剔除框架结构中表现比较差的分类器。在特征选择时,通过遗传算法
选择特征。每层的分类器都使用了交叉验证,从而降低了过拟合的现象,同时分类
器每层的输出结果都集成多个分类器的预测结果。
(2)基本方法说明
在之前的工作中,分类器结构如图
2
所示。
图 2
图 2相关工作中的分类器结构
Fig.2Classifier Structure in Related Work
数据处理部分使用数据标准化、特征提取等方法进行数据预处理 ,从而提高
了数据的质量。在模型内部的分类器训练中使用 k 折交叉验证,从而减少过拟合
对预测的影响。
分类器第一层由用于特征选择以分类预测的分类器组成 ,其功能是选择出最
佳的特征组合并拟合样本属性以及对应的标签。该层由 n 个分类器组成,并且每
个分类器的参数和核函数不同,输入是由 m 个经过数据归一化和特征提取处理过
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3691
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功