评分卡模型搭建流程_评分卡模型资源-CSDN文库

需积分: 49 24 浏览量 2018-08-31 10:34:44 上传评论 1 收藏 185KB DOCX 举报

评分卡模型搭建流程评分卡模型搭建流程是数据建模的关键步骤，它们是评分卡模型的核心组成部分。以下是评分卡模型搭建流程的详细介绍： 1. 数据取样（Sample）数据取样是评分卡模型搭建的第一步骤。在这个步骤中，我们需要将数据集划分为建模数据集（Training Data）和验证数据集（Validation Data）。通常，我们采用 0.7/0.3 的比例拆分原数据宽表，基于目标变量分层取样。 2. 数据探索（Explore）数据探索是评分卡模型搭建的第二步骤。在这个步骤中，我们需要检查各变量字段的数值缺失，统计量检查及变量预筛选。常用的变量筛选方法有单变量 R-Square 和 IV（Information Value）值等方法。评分卡模型中通常采用 IV 值筛选法，保留 IV 值在 0.05 以上的变量。 WOE（Weight of Evidence）和 IV：证据权重（WOE）是计算 IV 值的基础，用于衡量变量某个属性的风险，WOE 越高表示该属性分组中观测是正例（目标值 bad）的可能性越低，可以直观的认为 WOE 和目标变量的概率之间存在着某种单调的影响关系。WOE 的计算公式为：woe=ln(pct_good/pct_bad)，其中 pct_good 为该属性分组中负例数（非再购）在总体负例的占比，pct_bad 为该属性分组中正例数（再购车原车）在总体正例的占比。 IV（信息价值）衡量了一个自变量对目标变量的区分程度，它是 WOE 的一个加权平均值，计算公式如下：IV=∑(pct_goodi− pct_badi)*woei。IV 值越大表示目标正负例在该变量上的分布差异越大，该变量对目标变量的区分能力越好。IV 值计算一般应用于离散变量，对于区间型变量（连续型），计算这类变量的 IV 值需要先对变量进行分段，一般可按照变量取值从低到高等观测数划分 20 段（该值可适当调整），计算各段的 WOE 值和加总的 IV 值，剔除 IV 值低于 0.05（该值可适当调高）的变量。 3. 数据调整（Modify）数据调整是评分卡模型搭建的第三步骤。在这个步骤中，我们需要对自变量字段进行必要的函数变换，统一自变量之间的测度，改善自变量的数值分布等。一般的数值变换采用 WOE 值对原变量的各分段值进行替换，替换后的变量值进入 LOGISTIC 建模。 4. 建模（Model）建模是评分卡模型搭建的第四步骤。在这个步骤中，我们需要输入训练集（Training Data）中经过预筛选的变量，进行模型变量挑选和 LOGISTIC 回归参数估计。LOGISTIC 回归的变量挑选常用的可分为前进法、后退法和逐步回归法。前进法的主要思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。后退法，是先将 k 个自变量全部放入回归方程，然后逐步剔除。逐步回归法，前进法存在着这样的缺点当一个变量被引入方程时，这个变量就被保留在这个方程中了，当引入的变量导致其不显著时，它也不会被删除掉，后退法同样存在着这样的缺点，当一个变量被剔除时就永远的被排斥在方程以外了，而逐步回归法克除了两者的缺点。评分卡模型搭建流程是评分卡模型的核心组成部分，了解这些步骤是掌握评分卡模型搭建的关键。

资源推荐

资源详情

资源评论