![](https://csdnimg.cn/release/download_crawler_static/87254785/bg1.jpg)
1
基于 logistic 模型的信用卡违约风险分析与预测
自 1985 年第一张信用卡在中国诞生,其经历了从开始的不被认可到现在逐步替代纸币的流通,
信用卡的普及速度惊人。据央行数据显示,截至 2012 年底,我国信用卡累计发卡量达 3.3 亿张,全年
信用卡交易金额达 10 万亿元。众所周知,任何信贷业务都有一定的风险,而信用卡业务又具有无担保
无抵押的特性,因此信用卡是一种高风险的金融产品。近年来,信用卡违约事件屡见报端,2012 年信
用卡逾期半年未偿信贷总额 146.59 亿元,较上年末增长 32.9%。因此,识别信用卡违约行为的影响因
素,并据此对信用卡持有者的违约风险进行衡量与预测,有利于商业银行防范和化解信用卡风险,完
善信用卡违约风险管理工作。
根据国际学术界和金融实业界研究信用风险的主流方法,我们选取了信用评分模型中常用的
Logistic 模型对信用卡违约行为的影响因素进行识别,并利用所建立的 Logistic 模型对信用卡持有者的
违约风险进行衡量与预测。
案例数据来源于台湾某大型商业银行信用卡部的数据库,共收集 131068 笔的原始数据,包含 24
个变量,其中包括客户基本信息(性别*、年龄*、城镇或农村*、学历*、职业*、婚姻*、家庭人数*、
户籍所在地、宗教、血型、星座) ,经济状况(家庭月收入*、家庭经济等级*、个人月收入*、个人月开
销*),信用卡使用状况(信用卡张数*、使用频率*、月刷卡金额*),信用记录(逾期超过 30 天*、呆账记
录*、借款余额大于 800 万元*、退票记录、拒往记录、强制停卡记录)。由于变量众多,在经验信息的
前提下删除了其中 7 个变量,选入最初模型的 17 个变量在上文用星号(*)表示。
删除了含有缺失值的数据记录后,在剩下的数据中随机抽取了 4000 条违约数据,12000 条非违约
数据,共 16000 条记录作为训练集(
见
:sample16000.csv)。通过控制违约数与非违约数 1:3 的样本配比
以提高模型的效率(石晓军,2006)。并随机抽取了 1000 个数据作为预测集(
见
: test.csv)来测试模型的
预测效果,其中包含 57 条违约记录,943 条非违约记录。
(一)描述性统计
为了解各类人群违约率情况, 现将以往研究中比较受关注的几个变量与违约情况做描述性统计,
这些变量主要包括: 性别、受教育程度、家庭月收入和信用卡使用频率, 分析结果下图所示。
> sample16000<-read.csv("sample16000.csv",header=T) #读取 16000 个随机样本
>attach(sample16000)
> par(mfrow=c(2,2))
> barplot(prop.table(table(default,sex),2)[2,],names.arg=c("女","男"),main="性别 vs 违约行为")
>barplot(prop.table(table(default,education),2)[2,],names.arg=c("小学及以下","初中","高中/职高","专科","
本科及以上"),main="学历 vs 违约行为")
>barplot(prop.table(table(default,familys),2)[2,],names.arg=c("<20000","20001~30000","30001~40000","400
01~50000","50001~60000",">60000"),main="家庭月收入(台币)vs 违约行为")
>barplot(prop.table(table(default,frequency),2)[2,],names.arg=c("天天用"," 经常用"," 偶尔用"," 很少用
"),main="使用频率 vs 违约行为")