R语言程序设计期末报告.zip资源-CSDN文库

共6个文件

csv：3个

xlsx：1个

doc：1个

需积分: 9 9 浏览量 2022-12-07 19:36:42 上传评论 1 收藏 4.88MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

R语言程序设计期末报告.zip （6个子文件）

2题数据

变量名称及解释.xlsx 12KB

131068_原始数据.csv 8.15MB

sample16000.csv 1000KB

test.csv 62KB

案例_基于logistic模型的信用卡违约风险分析与预测.pdf 459KB

R语言课程报告要求202212.doc 53KB

基于 logistic 模型的信用卡违约风险分析与预测

自 1985 年第一张信用卡在中国诞生，其经历了从开始的不被认可到现在逐步替代纸币的流通，

信用卡的普及速度惊人。据央行数据显示，截至 2012 年底，我国信用卡累计发卡量达 3.3 亿张，全年

信用卡交易金额达 10 万亿元。众所周知，任何信贷业务都有一定的风险，而信用卡业务又具有无担保

无抵押的特性，因此信用卡是一种高风险的金融产品。近年来，信用卡违约事件屡见报端，2012 年信

用卡逾期半年未偿信贷总额 146.59 亿元，较上年末增长 32.9%。因此，识别信用卡违约行为的影响因

素，并据此对信用卡持有者的违约风险进行衡量与预测，有利于商业银行防范和化解信用卡风险，完

善信用卡违约风险管理工作。

根据国际学术界和金融实业界研究信用风险的主流方法，我们选取了信用评分模型中常用的

Logistic 模型对信用卡违约行为的影响因素进行识别，并利用所建立的 Logistic 模型对信用卡持有者的

违约风险进行衡量与预测。

案例数据来源于台湾某大型商业银行信用卡部的数据库，共收集 131068 笔的原始数据，包含 24

个变量，其中包括客户基本信息(性别*、年龄*、城镇或农村*、学历*、职业*、婚姻*、家庭人数*、

户籍所在地、宗教、血型、星座) ，经济状况(家庭月收入*、家庭经济等级*、个人月收入*、个人月开

销*)，信用卡使用状况(信用卡张数*、使用频率*、月刷卡金额*)，信用记录(逾期超过 30 天*、呆账记

录*、借款余额大于 800 万元*、退票记录、拒往记录、强制停卡记录)。由于变量众多，在经验信息的

前提下删除了其中 7 个变量，选入最初模型的 17 个变量在上文用星号（*）表示。

删除了含有缺失值的数据记录后，在剩下的数据中随机抽取了 4000 条违约数据，12000 条非违约

数据，共 16000 条记录作为训练集(

见

:sample16000.csv)。通过控制违约数与非违约数 1：3 的样本配比

以提高模型的效率（石晓军，2006）。并随机抽取了 1000 个数据作为预测集(

见

: test.csv)来测试模型的

预测效果，其中包含 57 条违约记录，943 条非违约记录。

（一）描述性统计

为了解各类人群违约率情况, 现将以往研究中比较受关注的几个变量与违约情况做描述性统计,

这些变量主要包括: 性别、受教育程度、家庭月收入和信用卡使用频率, 分析结果下图所示。

> sample16000<-read.csv("sample16000.csv",header=T) #读取 16000 个随机样本

>attach(sample16000)

> par(mfrow=c(2,2))

> barplot(prop.table(table(default,sex),2)[2,],names.arg=c("女","男"),main="性别 vs 违约行为")

>barplot(prop.table(table(default,education),2)[2,],names.arg=c("小学及以下","初中","高中/职高","专科","

本科及以上"),main="学历 vs 违约行为")

>barplot(prop.table(table(default,familys),2)[2,],names.arg=c("<20000","20001~30000","30001~40000","400

01~50000","50001~60000",">60000"),main="家庭月收入(台币)vs 违约行为")

>barplot(prop.table(table(default,frequency),2)[2,],names.arg=c("天天用"," 经常用"," 偶尔用"," 很少用

"),main="使用频率 vs 违约行为")

从图可知，信用卡违约率的性别差异不大，女性违约率略高于男性，这与 Schreiner(2004)研究的结

果不一致,Schreiner 认为女性的信用违约风险常常低于男性, 但前提是性别效应没有被其它变量的效应

所干扰。学历对信用卡违约率的影响较大，专科与本科及以上学历的客户信用违约率要高于其他较低

学历客户，这和 Din(2007)的研究结果比较一致。家庭月收入划分的群体中, 违约率最高的是家庭月收

入在 50001-60000 台币的客户，大大高于家庭月收入为 40000-50000 元的客户，这与 Edward(1998)的

研究结果不一致，Edward 认为低收入家庭很易陷入违约困境。使用频率对违约率的影响较为显著。

（二）模型建立与参数估计

接下来进入模型建立环节。由于数据库中基于信用卡持有者相关信息的变量众多，即使在经过经

验删选后，仍旧有 17 个变量，我们通过向后的逐步回归法来寻找合适的 logistic 模型指标。结果显示，

剔除家庭收入客观等级和年龄变量后，模型的 AIC 达到最小。

> ###### 将 voction 简化归类为 11 个大类

> for(i in 1:16000){

+ if(vocation[i]>1&vocation[i]<8){vocation[i]=1}

+ if(vocation[i]==8|vocation[i]==11){vocation[i]=2}

+ if(vocation[i]==9|vocation[i]==10){vocation[i]=3}

+ if(vocation[i]==12){vocation[i]=4}

+ if(vocation[i]==13|vocation[i]==14){vocation[i]=5}

+ if(vocation[i]==15){vocation[i]=6}

+ if(vocation[i]==16){vocation[i]=7}

+ if(vocation[i]==17){vocation[i]=8}

+ if(vocation[i]==18){vocation[i]=9}

+ if(vocation[i]==19|vocation[i]==20){vocation[i]=10}

+ if(vocation[i]==20|vocation[i]==21){vocation[i]=11}

+ }

> vocation<-as.factor(vocation)

> ###### 将 city 分为二变量

> for(i in 1:16000){

+ if(city[i]==2){city[i]=1}

+ if(city[i]==3){city[i]=0}

+ }

> city<-as.factor(city)

> ###### 将不同变量转化为相应的数据类型

> resource<-as.factor(sample16000$resource)

default<-as.factor(sample16000$default)

> X30days<-as.factor(sample16000$X30days)

> baddebt<-as.factor(sample16000$baddebt)

> loan800<-as.factor(sample16000$loan800)

> tuipiao<-as.factor(sample16000$tuipiao)

> juzhu<-as.factor(sample16000$juzhu)

> tingka<-as.factor(sample16000$tingka)

> number<-sample16000$number

> frequency<-sample16000$frequency

> location<-as.factor(sample16000$location)

> sex<-as.factor(sample16000$sex)

> age<-sample16000$age

> marriage<-sample16000$marriage

> education<-sample16000$education

> salary<-sample16000$salary

> expense<-sample16000$expense

> housing<-as.factor(sample16000$housing)

> familys<-sample16000$familys

> payment<-sample16000$payment

> religion<-as.factor(sample16000$religion)

> population<-sample16000$population

> economy<-sample16000$economy

> blood<-as.factor(sample16000$blood)

> constellation<-as.factor(sample16000$constellation)

> agec<-sample16000$agec

> ###### 逐步回归 ######

> default.logit<-glm(default~X30days+baddebt+loan800+ number+ frequency +city +sex+ age+ marriage+

education +vocation +salary+ expense+familys+ payment +population

+economy,family=binomial(link="logit"))

> summary(default.logit)

> library(MASS)

> step(default.logit,direction="backward")

Start: AIC=3390.46

default ~ X30days + baddebt + loan800 + number + frequency +

city + sex + age + marriage + education + vocation + salary +

expense + familys + payment + population + economy

Df Deviance AIC

- economy 1 3336.5 3388.5

- age 1 3337.2 3389.2

<none> 3336.5 3390.5

- city 1 3350.8 3402.8

评论收藏

内容反馈

葵迎2201号

粉丝: 0
资源: 1

R语言程序设计期末报告.zip

基于C++开发的热门电视剧评价及推荐系统源码+数据+详细代码注释+可执行程序+程序设计报告.zip

网页设计期末大作业.zip

网页设计期末 大作业.zip

汇编语言程序设计期末考试题.zip

2020-2021(2)面向对象程序设计期末考试.zip

XDU计算机导论c语言程序设计xdoj习题.zip

JAVA语言程序设计期末题库.zip

C++程序设计大作业-飞机订票系统的设计与实现源码+程序设计报告.zip

大学生静态网页设计期末作业.zip

【微信小程序-毕设期末大作业】在线小说小程序含后端源码.zip

基于Verilog HDL的五级流水线RISC-V CPU设计+设计报告.zip

【微信小程序-毕设期末大作业】天气预报小程序带后端源码.zip

基于CS架构实现的聊天室设计c++源码+设计报告.zip

交互产品开发期末作业-JavaScript实现的植物识别小程序源码+报告（95分以上）.zip

【微信小程序-毕设期末大作业】简易记账小程序带后端源码.zip

【微信小程序-毕设期末大作业】写笔记小程序带后端源码.zip

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

AI大模型-基于深度学习的神经网络模型语言模型图像识别自然语言处理

学术海报模板+论文科研+研究生

北森能力测评题库.zip

ST-LINK Utility 4.6.0

车载毫米波雷达DOA估计综述博文仿真代码

最新资源

网页设计期末大作业.zip

李飞飞自传我看见的世界 The World I see