评分卡模型搭建流程 评分卡模型搭建流程是数据建模的关键步骤,它们是评分卡模型的核心组成部分。以下是评分卡模型搭建流程的详细介绍: 1. 数据取样(Sample) 数据取样是评分卡模型搭建的第一步骤。在这个步骤中,我们需要将数据集划分为建模数据集(Training Data)和验证数据集(Validation Data)。通常,我们采用 0.7/0.3 的比例拆分原数据宽表,基于目标变量分层取样。 2. 数据探索(Explore) 数据探索是评分卡模型搭建的第二步骤。在这个步骤中,我们需要检查各变量字段的数值缺失,统计量检查及变量预筛选。常用的变量筛选方法有单变量 R-Square 和 IV(Information Value)值等方法。评分卡模型中通常采用 IV 值筛选法,保留 IV 值在 0.05 以上的变量。 WOE(Weight of Evidence)和 IV:证据权重(WOE)是计算 IV 值的基础,用于衡量变量某个属性的风险,WOE 越高表示该属性分组中观测是正例(目标值 bad)的可能性越低,可以直观的认为 WOE 和目标变量的概率之间存在着某种单调的影响关系。WOE 的计算公式为:woe=ln(pct_good/pct_bad),其中 pct_good 为该属性分组中负例数(非再购)在总体负例的占比,pct_bad 为该属性分组中正例数(再购车原车)在总体正例的占比。 IV(信息价值)衡量了一个自变量对目标变量的区分程度,它是 WOE 的一个加权平均值,计算公式如下:IV=∑(pct_goodi− pct_badi)*woei。IV 值越大表示目标正负例在该变量上的分布差异越大,该变量对目标变量的区分能力越好。IV 值计算一般应用于离散变量,对于区间型变量(连续型),计算这类变量的 IV 值需要先对变量进行分段,一般可按照变量取值从低到高等观测数划分 20 段(该值可适当调整),计算各段的 WOE 值和加总的 IV 值,剔除 IV 值低于 0.05(该值可适当调高)的变量。 3. 数据调整(Modify) 数据调整是评分卡模型搭建的第三步骤。在这个步骤中,我们需要对自变量字段进行必要的函数变换,统一自变量之间的测度,改善自变量的数值分布等。一般的数值变换采用 WOE 值对原变量的各分段值进行替换,替换后的变量值进入 LOGISTIC 建模。 4. 建模(Model) 建模是评分卡模型搭建的第四步骤。在这个步骤中,我们需要输入训练集(Training Data)中经过预筛选的变量,进行模型变量挑选和 LOGISTIC 回归参数估计。LOGISTIC 回归的变量挑选常用的可分为前进法、后退法和逐步回归法。前进法的主要思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。后退法,是先将 k 个自变量全部放入回归方程,然后逐步剔除。逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点。 评分卡模型搭建流程是评分卡模型的核心组成部分,了解这些步骤是掌握评分卡模型搭建的关键。
- 粉丝: 27
- 资源: 5
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助