互金公司言必称大数据风控，到底有几分成色？

大数据风控是目前Fintech领域的主要应用，也是资本关注的焦点。很多互金公司都开发了大数据风控模型，业界也涌现了很多专门做大数据风控技术然后向业界输出技术能力的技术型公司。然而，大数据风控有很强的技术壁垒，并非每家公司都能做好，不排除一些企业利用大数据风控的概念进行炒作。对于不懂技术的普通人而言，大数据风控的概念也是云里雾里。

那么，到底大数据风控是怎样的，价值在哪里，又面临哪些发展中的问题？

大数据风控已是互金公司的核心竞争力

大数据风控的价值已经不用再多介绍了。这已经成为互金公司的核心竞争力，也是互金区别于传统金融的重要特征。互金公司能够为传统金融机构所不能服务的人群提供普惠金融服务，基于大数据的风控手段功不可没。通过全方位收集用户的各项数据信息，并进行有效的建模、迭代，对用户信用状况进行评价，可以决定是否放贷以及放贷额度、贷款利率。

相比于传统金融的风控模式，大数据风控可以通过机器的大规模数据运算，完成大量用户的贷款申请审核工作，提升工作效率。传统金融的审核由人工完成，效率会相对有限；大数据风控可以针对业务运行中出现的新情况、新数据进行快速迭代，增强模型的有效性；机器和软件可以“24*365”模式工作，摆脱工作时间的限制。

互金公司发力大数据风控

目前很多互金公司都在做大数据风控，虎嗅之前的文章对BAT在消费金融业务进行盘点时总结了BAT在大数据风控方面的技术。京东也有相关的布局。

BATJ的大数据风控技术

除了BATJ这样的大公司，近年来新兴起的已经具备一定规模的互金公司也大力布局大数据风控，以网贷公司和贷款搜索平台为主，大多推出了相关的大数据风控技术体系。

国内部分网贷公司与金融搜索公司的大数据风控技术

除此之外，还涌现了不少做大数据风控技术的金融科技公司，开发大数据反欺诈模型和信用评估模型，向资金端或资产端有资源的金融企业输出技术。这类企业也不断获得资本青睐。统计显示，近四个月内，至少有8家做大数据风控技术输出的公司获得融资，其中九次方大数据、51信用卡、用钱宝都已融到B轮以上。

大数据风控技术领域投融资情况（按融资时间排序）

从以上几个表格可以看出，从BAT这样的大公司，到互金领域的创业公司，都在着力研发大数据风控技术。大数据风控的价值可见一斑。

大数据风控具体是怎样的？

大数据风控模型的构建，包含了明确模型目标、定义目标变量、确定样本、确定分析技术、构建模型、模型初步验证、数据处理、模型迭代等环节。我们专访了用钱宝CEO焦可等业内人士后发现，核心工作包括三方面，即获取数据、建立模型、模型在实践中优化、迭代。

数据的来源

对于大数据风控业务而言，数据来源主要包括几部分：

一是用户申请时提交的数据信息，如年龄、性别、籍贯、收入状况等，这些数据可以了解用户的基本情况，验证用户的身份；

二是用户在使用过程中产生的行为数据，包括资料的更改、选填资料的顺序、申请中使用的设备等，可以通过用户的行为来进行特征挖掘；

三是用户在平台上累积的交易数据，如果公司运营比较久的话，可以累积比较多的用户借款相关数据，这类数据对于判断用户信用会有很高的价值；

四是第三方数据，包括来自政府、公用事业、银行等机构的数据，以及用户在电商、社交网络、网络新闻等互联网应用上留存的数据。这类数据可以从多角度展示用户的特征，利用这些数据进行建模分析，可以找出不同特征与信用水平之间的相关性。

数据的建模

数据是基础，下一步要做的是构建模型，对数据进行分析利用。数据本身没有价值，数据中蕴含的信息有很大价值，这些信息可以逐步归纳为用户的特征向量，这些特征可以分为强特征和弱特征，强特征是大而广之的特征，如性别、年龄、籍贯、学历、收入档次等，弱特征可以认为是比较细微、小众的特征，如喜欢晚上喝咖啡、经常在早上打电话、半夜发朋友圈等，不同的特征与用户的违约概率有或强或若的关系。

风控即风险控制，评估用户可能的违约情况，主要包括反欺诈和信用评价两部分。反欺诈是辨别那些一开始就想违约，进而弄虚作假的用户，信用评价是对用户的资信状况进行评价，判断其在借款到期后是否会因为无力还款而违约。这两部分还可以继续细分，如身份验证、预付能力、还款意愿评估、还款能力评估、稳定性评估等。

大数据风控模型构建的两个必要步骤，一是发现不同特征与违约之间是否有相关性，二是为不同的特征赋予权重或违约概率，以确定拥有多项特征的用户的信用状况，决定是否提供金融服务、具体的额度以及利率水平。

建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等机器学习算法，随着人工智能技术的进步，神经网络、强化学习等前沿的算法也已经运用到大数据建模过程中。

模型的应用与迭代

模型开发出来后，应用到具体的信贷等金融活动中，等若干个放款周期结束后，会有结果数据出来，这时候需要依据这些运营数据对模型进行修正，经过一次次的迭代，模型的有效性、实用性会逐步提升。

例如，一家企业完成了100万单的信贷记录，这就意味着在贷款陆续到期后，其大数据风控体系将收获100万的数据样本，这些数据样本与用户信用高度相关，具有很高的价值，使用这些数据对风控模型进行进一步的优化，可以提升风控的有效性。由此可见，大数据风控需要与具体业务紧密结合，不断“学习”，才能够稳定、可持续的升级，对业务有进一步的指导意义。

总体来说，目前大数据风控还在发展初期，未来行业一个可能的演化路径是：一些拥有数据资源和技术算法优势的企业在市场规模上具备了一定优势后，拥有更多的数据资源来支持模型的优化迭代，强化其技术优势，从而可以在控制风险的基础上提高贷款申请的通过率，使自己技术支持下的交易规模越做越大。在不考虑黑天鹅事件的前提下，行业可能出现强者恒强的马太效应。

如何判断大数据风控的成色

几乎所有的互金公司都在宣传自己的大数据风控，这样可以让用户更加放心，也给投资机构讲一个技术含量高的故事，但并非每个公司都有相应的能力。就算确实在开发大数据技术，能力也有高下之分。如何判断一家互金公司的大数据风控技术的成色？

首先看团队实力，团队是否有足够的技术人员，是否有相应的开发经验和履历。技术团队的规模与构成是衡量其大数据能力的重要指标，这一点比较直观。

其次，看公司的业务特征是否有使用的数据技术的必要。用钱宝CEO焦可认为，企业如果服务于足够海量的用户群体，交易频次也足够高频，则有通过大数据技术提升运营能力的需要，也会有越来越大的数据支撑模型的迭代。

如果一家企业只是服务于有限的客户，使用传统的线下风控模式就可以，没有使用大数据技术的必要，而且过程中无法产生大量的数据，也就无法为模型提供数据支持，所以也就没有使用大数据风控的可能性。例如，在P2P行业，如果借款人都是机构，且都是大额融资标的，则大数据风控没有用武之地，也没有使用的必要。

另外，还要看经营的时间长短。陆金所董事长计葵生曾表示，验证一个大数据风控模型的有效性，至少需要5万笔贷款进行验证。如果业务经营没有多长时间，不会累积足够的历史数据，也就无法对模型进行技术进行及时的迭代更新，其有效性也就面临很大考验。

大数据风控面临哪些问题？

发展大数据风控无疑是行业必经趋势，但其发展道路肯定也不是一帆风顺，还是面临很多障碍和困境。

首先是数据源的问题。数据量需要进一步扩大，为模型提供训练数据方面的支撑。对于一些缺乏信用数据的群体而言，目前很多线下行为都还没有数据化，线上数据也比较有限，对于这类群体，各种行为线上化、数据化进而将数据结构化，需要有一个过程。近些年来随着智能手机与社交网络应用的普及，很多缺乏信用数据的群体在线上有了一些数据，但数据量还需要进一步增加。未来物联网的发展可能带来更丰富的数据信息，辅助进行风控决策。

其次是面对的欺诈行为层出不穷，不断考验模型的有效性。总会有想要骗贷的群体对反欺诈模型进行研究，寻找漏洞以骗取资金，各种伪造技术也助长其欺诈行为。一个模型出来以后，刚开始可能比较有效，但面对新出现的欺诈行为可能又缺乏辨别能力，导致模型精准度下降。这就需要大数据风控模型在试错中不断迭代，加入更多复杂特征和更多维度的特征。这对于大数据风控公司的技术能力是持续的考验。

另外，大数据风控的发展要避免场景、行业、授信人群的集中化。企业做大数据风控，往往会选择一个场景、垂直行业或细分人群进行切入，这样可以将一个场景做深做透，深度分析、利用该领域的数据，但从金融的规律看，信贷过于集中于某个领域可能带来风险。读秒CEO周静表示，在做资产的时候，包括人群区域性、资产类别尽可能得做分散。零售信贷行业很多风险事件是因为行业对某一个群体人的过度的授信，导致风险延伸到整个经济。如果集中在某个场景或者某一类人群，风险可能越来越大，最终对行业市场有一个很大的冲击。