银行客户信用评分及实现

想必很多人多有贷款或申请信用卡的经历，那么“大金主”银行的钱从何而来？其中一小部分是银行的自有资本，其余大部分来源于储蓄、资本市场发行债券或股票等，也就是说，“大金主”是拿着别人的钱放贷，而他自己不过是一个资金中转、流通的“媒介”。如果把“别人”的钱借出去了，借款者却违约，钱收不回来怎么办？银行不仅没有收到贷款利息，反而要“自掏腰包”替借款人补上尚未还清的钱，因此便造成了损失。这就是我们常说的银行所面临的“信用风险”。

2008年，美国爆发了严重的金融危机，波及实体经济，导致全球经济低迷。早在2006年，那些向信用状况较差的人发放的住房贷款，就已然出现了问题，贷款违约率的不断上升，最终酿成了历史性的悲剧。如何监测、计量信用风险的发生，通过科学的手段度量和有效的管理信用风险，是银行需要面对的长久性问题。

1、何为信用评级？

首先，何为“信用”？俗话“有借有还”从道德上对信用进行了定义，然后银行与其客户之间“借贷”的关系，往往较为复杂。通常，银行需要全方位、多角度地去评价客户，确认客户的“信用”，才能放心地把钱“借”出去。

我们都熟悉支付宝芝麻信用分，它是通过采集个人用户信息，经过加工、计算得出用户的信用得分，当然，分数越高代表信用越好。

这几个维度包含了用户个人基本信息、好友互动信息、信用账户情况及履约历史、购物及理财等行为偏好等多项内容，通过大数据技术，最终以分数值的形式，形成对用户信用的准确评价。这就是信用评级。

随着数学和统计技术在传统金融行业的广泛应用和推广，银行业也采用了“定量”的形式，多角度分析、判断不同客户的不同的信用等级，从而来决定客户可获取的授信额度、首付额度或利率优惠程度等，以科学手段准确地计量客户的“信用”，从而避免因借贷双方信息不一致而引发的信用风险损失。

2、信用评级的基础：数据

现如今，早已不是拨打算盘手工记账的年代，社会上任何活动都拖离不了信息系统，当然，这些信息系统中，也无时不刻地记录着你的所有行踪，这就是所谓的“数据”。对这些数据的存储、清洗、加工，都为银行对客户信用评级提供了健全、丰富的信息来源；基于此，银行以大数据技术进行分析和计算，从而准确地对客户进行信用评价。

银行进行客户信用评级的数据来源于银行内部系统产生的数据或外部的数据，如图示：

内部数据

从客户的第一次开户开始，其与银行的每一次交互都将银行的信息系统留存，例如存款、转账、还信用卡、还贷、销户或购买理财等，每一次活动的时间、方式、地点、账户、金额、交易对象等等，都完整的保存在银行的数据库中。这些积累的数据，是银行非常宝贵的资产。与客户评级相关的数据，通常包括以下几个方面：

1）客户基本数据：银行通过不同形式、不同时间、不同地点所记录的客户名称、证件编号、联系方式、营收情况、学历、就业情况、客户关联人信息等；

2）贷款或信用卡账户信息：包括账户号码、余额、开销户时间、额度、额度调整历史等；

3）交易历史：即贷款放款、还款计划及实际还款、现金提取、信用卡刷卡、还卡、换卡等各类事件的具体时间、地点、方式等详细记录；

4）担保信息：即贷款抵押物基本信息、估值或评级信息，担保人信息等。

除上述外，信用卡或贷款产品的营销活动等数据，也与客户评级有关。

外部数据

外部数据来源广泛，以人行征信数据为例，其包含了客户基本信息，如姓名、性别、证件编号、婚姻情况、联系方式、住址等等；借款人的信用历史，如逾期情况、贷款尚未结清信息、担保信息、异常交易信息等；还有一些个人非银行信息，如住房公积金信息、社保信息等。

目前，各家银行都已经建立ODS或数据仓库等数据平台，其包含的信息能满足银行各条线的业务需要，为开展各类管理、经营决策的提供数据基础。然而，客户信用评级数据作为数据平台的一部分，通常混合于其他数据之中，因此，有必要仅针对信用风险管理或信用评级的需要，面向信用风险管理应用开发，单独建立信用风险数据集市。

数据来源于各类生产、业务系统，经由数据仓库，进入信用风险数据集市中。风险数据集市则按照上层应用的需要，进行数据的整合和存储。一般来说，信用风险相关的数据经过拆分、拼装或重组，以主题的形式存储在信用风险数据集市中。通常，包含以下几个主题：

3、信用评分的实现：模型开发

数据挖掘是从大量的、有噪音的数据中，发现潜在的规律和价值，以辅助提高管理、决策能力。银行通过对外部数据及信贷等业务中产生的数据进行提炼、分析，开发模型，对客户进行信用评分，以服务于信贷管理，增强风险控制能力。

第一步：样本抽取

银行积累的客户评级相关的数据量极其庞大，出于数据处理速度及模型开发效率的考虑，通常抽取一定量的数据作为样本，开发模型。常用的样本选择方式有两种，随机抽样和分类抽样。随机抽样较为交单，即随机选择样本，认为样本可以代表整体情况。例如，总贷款账户数是5000，不良贷款账户数是100，占比1/50；那么随机抽取100个贷款账户，其中包含2个不良贷款账户。而分类抽样，则需要先分类，确认各类样本的数据量，再分别进行随机抽样。例如上述例子中的账户样本选择，首先据担保情况进行分类，有无担保比例分别为3:2，则再分别随机抽取60个有担保的不良贷款账户和40个无担保的不良贷款记录。

当然，以上仅为示例，实际情况却往往复杂很多。

第二步：变量选择

明确因变量和自变量。其中因变量为表现变量，即模型的结果“客户信用情况”；自变量为与之相关的因素，它的预测能力决定于它与因变量之间相关关系和逻辑因果关系。通常，与信用等级相关的因素包含客户的学历、工资、年龄、额度使用情况、现金提取次数、还款时间等。

第三步：模型分组

模型分组的意义在于区分不同行为模型和数理关系，以提高模型预测的精准度。例如，学生和在职人员的还款能力是有差异的，但是某类自变量和坏账率的表现上，趋势十分相似，所以讲模型分组，将避免相互之间的模型因素的干扰和影响。

第四步：模型设计

影响模型结果的变量非常复杂，因此需要根据单个变量的实际预测能力进行筛选，剔除没有预测能力的变量，以缩小变量的范围。

常见的模型算法有线性回归分析、非线性回归分析、逻辑回归模型、神经网络模型、决策树模型等。在实际的模型选择过程中，需根据模型性质、分析人员经验等多方面因素综合考量。

第五步：模型检验

模型检验，在于衡量开发的信用评分模型能力。常用的检验报告有以下几类：