芝麻信用评分模型解析

数据来源单一、数据的第三方问题、隐私保护问题等,也是公众和监管层对芝麻信用的担忧和顾虑。芝麻信用该如何破解这些顾虑?

传统的征信系统,其数据来源比较单一,但是这些系统当中记录的都是关于个人和企业比较核心的金融数据,如信贷、保险、税收等,都是“真金白银”,与个人信用关联度比较强。互联网公司积累的数据虽然多,但是这些数据和个人信用关联度比较弱,如何用这些关联度弱的数据,分析出与个人信用的关系,是个难题。

此外,数据来源单一、数据的第三方问题、隐私保护问题等,也是公众和监管层对芝麻信用的担忧和顾虑。芝麻信用该如何破解这些顾虑

数据来源是哪

打开手机支付宝APP,点击首页淡绿色空心的水滴“芝麻信用分”,授权开通后,每个用户都可以看到自己的芝麻信用分。从350分到950分,分数越高代表信用程度越好,违约可能性越低。

“芝麻信用分,是芝麻信用‘皇冠上的明珠’,它是每个人信用程度的浓缩。但是,这个分数只是冰山一角,它的下面还有一座巨大的冰山。”胡滔介绍。

数据来源,是这座冰山的重要构成部分。芝麻信用分正是依据芝麻信用能够用到的数据打出来的,这些数据包括芝麻信用所在的蚂蚁金服集团多年积累的数据和与外部合作机构的数据。

芝麻信用管理有限公司,是蚂蚁金服集团旗下的子品牌。阿里巴巴和蚂蚁金服本身积累的数据,是芝麻信用的一大优势。这些数据包括淘宝、天猫等电商平台网络购物的相关行为数据,支付宝平台水电煤电信缴费数据、各种生活服务场景相关数据,还有千万级以上的贷款数据。其中,贷款数据包括阿里巴巴平台上接近两百多万的小企业贷款数据,千万级的天猫分期购的数据,以及消费者无忧支付产品蚂蚁花呗的数据。

“集团自有的数据,只占我们所有数据的一小部分,我们还有一大部分数据是和外部合作的。”胡滔介绍。

外部的数据源大致可以分为政府公共部门的数据、合作企业的数据、金融机构的数据、用户自主上传的数据等几个方面。

政府数据目前完全开放的还不多。胡滔介绍,目前政府已经开放的工商、学历、学籍、公安四个方面的数据,芝麻信用已经全部接入。今年7月1日,芝麻信用和最高人民法院实现专线连接,实时更新“老赖”(失信被执行人)数据。芝麻信用是最高法首个接入的市场化征信机构。接受媒体采访的当天早上,芝麻信用和最高人民法院执行局签署《合作备忘录》,双方将在此前失信被执行人(老赖)专线同步的基础上,进一步加大对老赖的信用惩戒力度,包括扩大信用惩戒范围、加大消费限制内容等。

“政府的数据公开这一块,我们也在思考政府为什么要开放数据给你。在现阶段唯一的解就是为他创造价值。”胡滔举例说,比如和最高法执行局的合作,就是芝麻信用接入之后,老赖们在网络上的消费会受到限制,这对案件执行来讲是有价值的。芝麻信用分是每月6日更新的,胡滔透露,很多老赖都开通了芝麻信用分,接入最高法执行局后,有人看到自己分数下降的很厉害,就打电话来问,感受到了失信者受限的麻烦。

目前,芝麻信用的合作企业有30多家,神州租车是首家与芝麻信用合作的企业。此外还有婚恋网站、酒店等各种生活场景中的商家。当用户的芝麻分达到一定数值,租车、住酒店时可以不用再交押金,网购时可以先试后买,办理签证时不用再办存款证明,贷款时可以更快得到批复、拿到比别人低的利率,甚至相亲时也可以最大程度避免婚骗。

互联网公司与银行的合作并非易事。之前媒体报道,银行目前都有自己的违约概率模型,数据来源是央行征信中心或银行自身,数据类型都是和信贷违约息息相关的“硬数据”。目前中国银行业风控效果良好,低于世界平均水平,因此银行未必有动力与芝麻信用合作。同时,有银行业人士接受媒体采访时表示,蚂蚁金服旗下有蚂蚁小贷做小贷业务,还有网商银行,这对银行而言都属于竞争者,因此不可能将核心数据提供给竞争者。

但是,6月25日,北京银行成为芝麻信用的首家合作银行,双方将开展信用信息查询和应用、产品研发、商业活动等多个方面的合作。胡滔透露,还有几家银行的合作也正在谈,但是合作并不是数据共享,而是全流程的信用风险管理。

其他的金融机构,芝麻信用也在谨慎地尝试接入个别的P2P平台,但是目前接入的P2P数量并不太多,大概不到10家。

目前,芝麻信用与合作伙伴之间的合作都是免费的。其他更多的合作方式,胡滔表示,芝麻信用给每个行业都有定制的解决方案,将择时公布。

除了合作伙伴的数据之外,在支付宝9.0版本中,芝麻信用在“芝麻信用分”的下面,添加了一个“+”按钮,用户可以点击添加自己的相关信息,以获得更准确的信用评分。

怎么做数据分析

通过多种渠道汇集的数据,在芝麻信用分的评分当中,被分为五个维度:身份特质、履约能力、信用历史、人脉关系、行为偏好。芝麻信用首席信用数据科学家俞吴杰向媒体详细解释了每一项的具体含义。

身份特质是指在使用相关服务过程中留下的个人基本信息,包括从公安、学历学籍、工商、法院等公共部门获得的个人资料,未来还可能包括网络使用习惯等可以用于推测个人性格的数据。

履约能力包括享用各类信用服务并确保及时履约,例如租车是否按时归还,水电煤气是否按时交费等,还包括通过消费情况、消费稳定性、消费层次等等来判断用户未来履约有什么样的能力。

信用历史是指过往信用账户还款记录及信用账户历史。俞吴杰介绍,这些历史包括用户的在蚂蚁微贷、蚂蚁花呗等蚂蚁金服旗下服务的信用历史、用支付宝还款的历史,还包括用户在合作伙伴处产生的信用历史,“我们把信用历史看得非常重要。因为大量的研究已经表明,如果一个人有持续的好的借贷还款行为的话,他在其他各个场景当中都会有类似的延续、惯性。”

人脉关系是指好友的身份特征以及跟好友互动的程度。根据“物以类聚人以群分”的理论,通过转账关系、校友关系等作为评判个人信用的依据之一。俞吴杰解释,当我们在判断关系的时候,要看两个人之间联系的紧密程度如何,以及历史的一贯的行为表现是怎样的,这些都是通过一个一个的模型判断出来的,而每个模型在判断一个指标的时候,都会用到几十上百个变量。

行为偏好是指在购物、缴费、转账、理财等活动中的偏好及稳定性。“比如讲一个用户你是否经常做一些与家庭责任相关的、跟社会责任相关的事情,在你购物的行为当中能不能体现出这种特征,如果是的话可能对你的个人信用会有正向的作用。”俞吴杰解释。

这些维度的评价,如何与个人信用建立联系

美国个人消费信用评估公司FICO的信用评分在美国的应用是最为广泛的,美国三大信用局都使用FICO的信用分。FICO信用分计算的基本原理是,把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。

俞吴杰告诉环球照明网,芝麻信用的大数据评分的原理是类似的。“传统的方法当中,每个变量与信用的关联比较强,可能有某个特征就是好的,没有某个特征就是坏的。大数据的场景下的很多关联不像传统的方法当中强,可能很多的特征都是弱关联,有关联但是彼此之间并不是很直接。但是当我们把很多个弱关联的特征联合在一起的时候就变成了一个非常强的预测变量,可以来判断这个人未来可能会守约还是违约。”

他举了个例子:“比如说要判断一个人的家庭责任感,购物中的哪些类目会体现出家庭责任感呢没有一个类目能说完。但是如果研究很多不同的类目,比如说你是不是在购买跟生活相关的纸巾类的物品、或者购买婴儿类相关的物品、学习类书籍,当把这些不同的类目联合在一起去看的时候,当一个人有众多的弱变量都指向是一个行为特征,他就变成了一个组合起来的强特征。”

这需要对大量的数据进行处理。俞吴杰进一步说:“当我们要去处理那么多变量那么多弱特征的时候,技术以及需要投入的处理能力就需要非常强。”

他接着解释:“一方面,我们人平时思考到的那些东西,比如地址稳定性、手机号码稳定性和个人信用到底有没有关系,数据和算法可以帮我们去检验;另一方面,我们人想不到的维度,只要把足够的数据放进去,机器能够帮我们两两比对,不同的关联组合起来以后,就可以知道违约和守约的区分。”

这是一个不断调整、优化的过程,随着数据源的扩大、应用场景的不断丰富,实际检验效果会越来越清晰。同时,俞吴杰也指出:“实际上,很多时候也不需要掌握所有的信息才能对一个人做出最完整的、客观的评价,因为很多信息是具有代表性的,只要我们在足够有说服力的方面拿到核心的信息,就可以对一个人做出相对比较准确的判断。”

他介绍,目前比较前沿的一些算法,如决策树、随机森林、支持向量机、神经网络等,芝麻信用都在研究尝试。

目前,芝麻信用分在实践中检验的结果,其产生的坏账率在合作伙伴可以接受的范围内,这也是让芝麻信用充满信心的原因。

芝麻信用整个团队有130人,其中2/3是数据和技术团队。胡滔介绍,数据分析团队是芝麻信用的核心。芝麻信用从国外引入了做征信模型做得最好的FICO的首席科学家,还有美国三大征信局之一艾可菲( Equifax) 专门做产品和业务的优秀华人。

胡滔对自己的团队充满信心:“他们在国外积累的经验,结合我们今天大数据和技术的优势,包括整个中国的市场,一定可以做出成绩。我经常也跟团队说,今天芝麻一小步就是中国一大步,因为我们做的每件事情在中国都是没有先例的。今天我们的征信才刚刚起步,美国是170年前起步的,我们的今天是他们的昨天,但是我们的明天可能是他们的后天。”

如何保护隐私

此前,有业内人士告诉环球照明网,利用大数据进行信用评估,目前只对特定人群、特定服务有效,比如对年轻人进行小额消费贷款。

芝麻信用分目前的适用范围是不是仅限于年轻人的小额消费贷款胡滔对此予以否认。她告诉环球照明网,芝麻信用希望对所有人的信用进行评估,而不仅仅是年轻人。

芝麻信用分开始公测之后,网上有人声称可以“刷分”,即帮助提高芝麻信用分。俞吴杰强调,现在声称可以“刷分”的都是骗子。

他解释,芝麻信用分的整个模型有极其复杂的机器算法,算法下面有很多的变量,如果追溯到源头的数据可能就有成千上万个,每个变量都很重要但是又是有限的。他说:“而且我们会加很多很稳定的机制,比如说转帐也好还款也好,我们不会看你昨天一天前天一天,我们会看你很长一个历史是不是持续在做这样一件事情。所以这个就会导致,第一你找不出任何一个点能够给你的信用带来巨大提升,第二机器算法本身是一个相对黑匣子的东西,你不知道你的这个行为最后到底是否有直接关系,尤其是当我们应用了更加复杂的算法以后都不是一个线性的关系,不是做了一件事就一定对结果有正向的影响。它是一个非常复杂的网络系统,网上看到的各种涨分秘籍在我个人看来非常可笑。”

此前,据财新报道,央行给予八家征信机构六个月准备期可能出于两条顾虑:其一是数据的第三方问题,其二便是如何保护隐私。

当时,俞吴杰在关于隐私保护方面介绍,芝麻信用从信息的调用、运算、应用等层面保护用户个人信息:

第一,很多数据,不是存在芝麻信用,而是在各数据源,如政府机构、合作伙伴、电商平台等。

第二,得到芝麻用户的授权,我们的系统才会调用各数据源和用户相关的数据,这个调用过程是没有人工参与的,都是系统运营的。

第三,系统运营的过程,会通过运算规则的设置,按照法规要求,不碰种族、血型、宗教、信仰等等信息。

第四,整个数据开发团队有很好的防护墙,只有核心成员知道系统运营的内核是什么。但即使他们知道运营规则,也不能接触到用户的信息,整个计算是在黑匣子里。

第五,只有在用户授权的情况下,第三方才可以调用用户的芝麻分等信用数据。

其表示,从用户数据的调用、运算,到第三方对信用分等的使用都是在用户授权的前提下进行,芝麻评分全过程工作人员不接触用户的信息,一切均由系统运营,确保用户隐私全程保密。

关于独立第三方的问题,当时芝麻信用商务拓展负责人邓一鸣的解释是,一方面芝麻信用仅有少部分数据来自“阿里系”,另一方面蚂蚁金服和阿里巴巴都是平台,本身不买卖货物,基本没有自营,因此产生的数据本就属于第三方数据。“对于这个解释,监管层是认同的。”邓一鸣说。

现在,芝麻信用对这个问题给出了更好的答案。胡滔介绍,芝麻信用是独立的一家注册在杭州的征信公司,这个是物理上、组织架构上的独立。另外在董事会层面,芝麻信用邀请了金融界一位非常有影响力的华人董事,他将在芝麻信用董事会中拥有相当的权限,每一次会议和董事会的决议都可追溯、可查询。“希望他能够参与到我们整个公司的监督里面。其实最核心的是保护消费者的利益,特别是个人隐私权保护能不能很好的落到实处。第二个非常重要的,就是我们独立性这块,和集团内其他的业务单元和子公司的关联交易的独立性保障。”

文章来源:《环球照明网》(原文题为“芝麻信用的数据来源以及评分的五个维度”)

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2016-06-29
下一篇 2016-06-30

相关文章

关注我们
关注我们
分享本页
返回顶部