个人信用评分模型构建详解 ——0-1风控信用评分模型建设秘籍

导读：目前我国P2P行业已进入竞争激烈的过程，个人消费贷、小额信贷等也成为P2P行业资产端的竞争，分散型个人客户具备资产集中度低，抵抗宏观经济环境风险、地域金融风险能力强的优势，逐步成为金融业纷纷发力区域。

目前个人信用评分模型来源于传统金融机构信用卡，逐步扩展到个人信贷业务。由于工作主责范围原因，本次分享关于个人信用评分模型建设过程。毕竟专业水平有限，博君一晒，欢迎批评指正。本文初衷是希望与各位同行共同探讨网络信贷风控建立，实现资源共享快速提升网贷行业整体风控水平，促进行业健康成熟发展。

本文构建基于传统金融业务数据，个人也是从传统金融风控涉足到网贷金融风控，但由于产品形态依附传统业务痕迹明显，故现行资产不良及违约情况还是非常好。建设历程如下：

模型原理→样本准备→变量选择→模型构建及检验→实施验证及评价

一、信用评分模型原理

本次实施探索个人信用贷款评分模型的基础原理，与各大信用机构的大多数评分模型一样，均基于真实历史数据构建的评分模型;是通过对人群历史信用表现历史信用表现进行分析，对其将来某一段时间内违约概率的评估违约概率的评估违约概率的评估。

二、数据及样本准备

在数据为王的当代，数据集量的大小、数据质量的好坏、数据维度的多少影响数据分析挖掘结果的关键输入条件。此次数据核心来源传统金融信贷数据，数据字段70多个，本次重新提取数据，采集维度减少，但细化凸显自然人属性数据，缩减数据指标为43。

1、样本确定

保证数据量前提下，采集样本为信贷全部历史数据;后续按照数据字段质量等因素初筛样本。初步进入样本总量110万条，且放款最小日期为14年，样本数据可用。

针对每个字段进行极值、分布、异常数值等进行质量管理，并且进行字段间交叉验证排除垃圾错误数据。

2、数据字段属性改造

回归模型输入变量格式限制数值，故本次提前将变量字段属性进行对应改造，按照数值对应不同字段内容。

3、异常值与缺省值处理

受数据量影响，针对缺省值数据采取最大抛弃原则，未纳入样本数据，异常值数据，采取丢弃原则。最后，针对好客户进行复杂抽样，好客户数量6万(属性值为1)，坏客户6万(属性值为0)，总体样本数据为12万.

三、入选变量选择及确定

变量主要包括目的变量及影响变量，其中目的变量(可理解为因变量)为输出变量，其他变量主要为输入变量。按照信用评分模型核心原理，目的变量影响因素中有一不可忽略变量——时间因素。

1、好坏客户的标签定义

好坏客户的分类标准不同业务场景、不同业务各有不同;本次好坏客户识别主要按照客户历史最差五级分类标准判断，其中正常五级、关注一级、关注二级、关注三级、次级、可疑、损失确定为坏客户。

2、表现期、观察期确定

表现期与观察期确定主要排除时间因素影响，由于业务观察期，采取全业务，最长观察期6年，表现期选择3个月。

3、影响变量确定及变量分组

特征变量确定是贷款评分模型关键，如何确定特征变量相关性，如何降维特征变量分组观察。若采取主流分析模型—回归的话，目前有通用具体操作方法如下：

传统特征变量选择主要是通过特征变量分组，分别计算WOE(好坏客户分布log值)衡量分组是否合理，随后用IV (WOE*(p1-p0)，衡量自变量对目标变量影响的指标之一)筛选变量是否进入模型。备注：p1与p0分别为好坏客户。

一个特征项能从低风险客户中分离出高风险申请者的预测能力，是由基尼统计量(IV)评估出来。信息价值的值为该特征项属性的WOE的加权总和。该权值为这个属性中好客户在总好客户数中的比例与坏客户在总坏客户数中的比例的差值。

但建议变量选择，追寻数据集大原则，尤其涵盖所以高质量的坏客户数据。按照WOE、ODDs、IV等数据统计指标来确定进入模型的变量。

范例：

四、模型实施及检验

按照IV>=0.03变量进入模型标准，以上进入模型14个中12个字段均符合条件，两个等字段无法进入模型。同时由于分类过细造成变量多，按照WOE相近合并原则，重新分组。

本次采取工具为IBM-Modeler挖掘工具，模型采用混合模型，采取策略为单一回归模型与混合模型并行。

该策略原因在于神经网络模型在预测准确性上有优势，但解释性严重不足，而回归虽解释性较强，但在模型预测准确性略逊。故本次首先利用神经网络方法建立一个信用评分模型，然后将神经网络评分的结果作为解释变量之一，再加上其余的特征变量，最后建立一个基于Logistic回归的信用评分模型。即保证模型拥有良好解释，一定程度也提升混合模型最终准确性。

单一回归模型：

回归模型检验初步检验采用测试样本准确性校验，检验准确度65.22%，此次回归模型稳定性较好。

混合模型：

考虑到回归模型准确性较低，故引入其他模型增强混合模型预测准确性，结果显示，神经网络多次训练准确度提升至65.4%，而决策树C5.0准确度也仅64.5%，故引入其他模型优化回归模型失效。

以上数据均通过显著性检验，则模型输出结果为：各个模型确定参数及权重，LN[P(1-P)]= Σ各个变量截距+参数+权重

至此，模型已建立完毕，后续开展模型检验。

五、模型实施及评价

信用评分卡权重来自于评分模型，每个属性对应的分值可以通过下面的公式计算：WOE乘该变量的回归系数，加上回归截距，再乘上比例因子，最后加上偏移量：

确定权重到分数的公式：

假设好坏客户发生比未1:1的信用评分为50，以此为基础分数，则

Score=log(1)*factor + offset(偏移量)

当好坏客户发生翻倍时，信用分数增加20

Score + 20 = log(2)*factor +50

则带入确定回归模型。

K-S检验：

按照国际违约率类模型拟合度判断方法—K-S指数，可以通过好坏客户累计差值，区分评分模型能够将“好”、“坏”客户区分开来的程度。国际通用标准：(0-0.2]，模型不理想，(0.2-0.4]，模型一般，(0.4-1]，模型理想。

六、结论

经过大量数据准备与多个模型比较，最终解释性较强的回归模型胜出。至此，一个具备实战的信用积分卡工具完成出厂条件，如何进行风险差异化定价也成为后续研究重点。另外副标题明显标题党，只为流量，敬请见谅。以上为整个研究思路，毕竟闭门造车，与行业新思路相差较远，这里业欢迎各位专家拍砖，以文会友，与我沟通来指点帮助年轻人。