“坦白讲如果没有拥有数据思维,那即使拥有了很多数据,而且不管这些数据有多大,都不能说你在做大数据,所以大数据的核心其实是要拥有数据思维。”
1、数据思维
利用数据解决问题
什么是数据思维?数据思维的最核心是利用数据解决问题,利用数据解决问题的最核心是要深度了解需求,了解真正要解决什么样的问题,解决问题背后的真实目的是什么。在解决问题的过程中我们使用数据的方法,通常可以叫量化的方法。
所谓量化的方法,就是解决问题的过程要可衡量、可评估,有非常明确的定义,这点在车老师书里有一篇就介绍了他的几个定义,即“PIMA”,这四个字母分别代表了解决问题时要考虑的几个纬度。
需要有明确的目的(P);
在达到目的的过程中需要有清晰的定义(I);
在解决问题的过程中所使用的手段是可量化的(M);
对问题、解决问题的全过程可评估(A)。
所以不管是财务、人事、还是生产或销售的每一个环节都是可量化的,可以通过数据解决问题的。
通过量化的数据解决问题,就是我们所谓的数据思维。举明略在金融行业的实际案例来看:我们先思考一下,金融行业里银行、保险或证券公司经营的目的是什么?这是核心。车老师在书里也介绍了,考虑大数据也好,考虑数据思维也好,首先是要分析出所做事情的真正目的是什么?然后再进行量化分析。
实际上,金融行业企业最核心的是风险控制问题。银行获取存款的过程做一个最基本的存款操作就行了,是没有任何风险的。但当银行想盈利的时候,存款业务因为要支付储户利息成为非赚钱手段,想赚钱要通过贷款实现。银行把收过来的存款贷出去,两者之间的利差是银行的利润。
所以对于银行来讲,真正的核心诉求是如何在贷款过程中降低风险,尽量减少贷款个体或企业不还款的风险。这个风险越低,银行的利润空间就越大。因为整个贷款利差并不高,可能只有几个点,最多也不会超过十个点,即便是现在的小贷,也不会超过十个点。但一般一个贷款人还不了款的话,银行利润就会被大打折扣。现在整个市场上的风险率或坏账率有时会高达百分之三、百分之五,即便比较低的时候可能在很多银行有百分之一点几、百分之二点几。所以如何有效的控制这个风险对银行很重要。
所以对于银行来讲,他需要了解贷款人的还款能力。而且还款能力从他贷款到还款过程中也在时时发生变化,有消费者在贷款瞬间是有还款能力的,但在还款之前的整个周期里他经历的状况其实在不断发生变化。企业更是这样子,每个企业在经营过程中的状态是瞬息万变的。所以对于银行来讲了解消费者或企业的整个经营状况、资产状况、风险状况是非常关键的,中间的每个环节都可能造成贷款人最后无法还款,银行需要评估这里面的每一个因素与最后能否发签证的关系。
在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。
比如我们的一个客户——邮政储蓄银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。
“其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。”
2、数据治理
还原推测到“高分辨率”
我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。
很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。
非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。
今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。
像我最近在跟几个阿里包括车老师,还有腾讯的人聊,他们自己内部都有一个类似于叫自然人计划的项目,这是公司的核心项目。这个项目工作就是把整个集团下属的所有公司的数据收集到一起,把这些数据连到一块儿,把消费者行为最后标到一个真正的可以看出来的一个自然人身上。比如说像我在阿里体系里不仅是有购物行为,还有在高德地图上的浏览的行为,而且我在高德地图上是没有登录的,那在阿里体系里面他就需要通过一些算法的猜测,而这个人使用地图的具体行为可能正好也就是这个人使用的支付宝账号的信息,他们通过一个算法是可以关联起来的。实际上这个关联并不难,因为我这两个行为都是落在同一个手机上的,他可以通过手机的ID就可以把我的行为连起来了,最后得出结论就是吴明辉的。
所以前面我也反复提到过好多次,数据实际上是每一个人、每一个个体、每个机器、每天日常的各种人的行为的一些记录。因为程序的能力,可以把数据及行为记录下来,这就产生数据。但是任何一个商业公司也好,甚至是国家也好,都没有能力去记录一个个体、一个人一天二十四小时所有的行为,这是不可能的。每个人只能记录一个片段,所以数据清洗的过程还有一个很重要的工作就是想办法把一个人的所有行为进行补全,甚至对你的未来行为进行预测。
这就好比平时用数码相机照相,平时看到一张照片是一百万像素、五百万像素还是一千万像素的,事实上大家可以理解整个世界的像素是无穷的。但是我们最后把拍照存下来的时候肯定是有限制的,如几百万或者一千万,最高可能有几千万像素的相机。但实际上拍下来,真正数码化存下来的时候,他已经是一个采样的过程,就是把真正分辨率极高的这个真实世界里面的一部分信息抽样存下来,然后分辨率越高,就是抽样的比例越高。分辨率越低,抽样的比例越低。
而我们真正记录下来数据,记录得越全面,对还原真实世界就还原得越好。但是很多情况下,如果真正的技术、好的算法或者数据清晰的整合能力很强的话,可以把一个低分辨率的信息,还原成原来很高分别率,很真实的情况。就像我们的人眼其实就很厉害,因为其实我是有一点近视眼的,但是我看很远处的一个广告牌,上面的文字有的时候我看得不是很清楚,但是我的大脑是能够猜出来到底这个文字是讲什么的,本质上是因为在我的大脑里面是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。
“并不是所有的数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。”
3、数据关联
同一趟火车到互为同事的推断
前面我给大家介绍的是数据的清洗整合。实际上大数据技术除了信息整合之外,另外一个很核心的技术是数据的关联。
前面我也提到了很多大数据客户不管是政府还是企业都有很多不同的数据,因为数据本身是需要关联起来,在数据真正联系到一起之后,在数据内部我们可以发现很多数据和数据之间的关系,而这些关系真正的挖掘好了之后,它的实战价值是非常大的,可以起到1+1远远大于2的作用。
在美国有一家非常有名的大数据企业叫“Palantir”,这家公司现在虽然还没上市,但市值已达两百亿美金,是全球没有上市的企业里市值排名前五的企业。这家企业之所以厉害是因为其在利用数据关联这种能力去给美国情报机构,包括CIA、美国国土安全局提供数据挖掘服务,帮助他们进行反恐和非常重大的刑事案件追查,数据的关联在很多情况下能够帮助政府很好的发现犯罪份子。
明略数据现在也在利用类似的技术给中国的公安局等部门提供类似的服务。在整个公安破案过程中,这种关系的挖掘是非常重要的。就像前面我说的,并不是所有数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。举个例子,当时我们在河北做了一个试点,我也是很强烈地被震撼到了。当时把我的名字输到这套系统之后,其实是通过我们自己做开发的系统,我们可以用非常快速的方法查出哪一些人是我在明略的同事。
虽然在公安系统里并没有记录我是明略的,我的同事也是明略的,我们之间这种同事关系,但在公安系统里记录了我曾经从北京坐了一趟动车去到了河北,我的另外一个同事也坐这趟车过去,同天晚上我们又入住了同一家酒店,就这样简简单单的信息,就把我们两个人关联上了。我们其他同事用类似的方法都可以非常简单地被关联在一起。当我们利用这样方法把几组数据,比如乘坐火车的数据和住酒店的数据关联到一起之后,很多关联关系就自动的被发现出来了。这个价值对于整个安全体系来讲是非常非常重要的。今天其实很多公安都在试用类似的方法侦破重大案件。
总结
大数据的核心有两个:第一,要知道数据是如何获取的。第二,要拥有“数据思维”,拥有数据思维最核心是我们要考虑到一个事物从起因到结果的发展过程,所有的数据其实是记录这个过程中的证据。
当一个机构在给一个消费者、一个个人提供服务的过程中,这些数据很多情况下就被存储下来了。存储下来的数据可以通过大数据技术来还原最开始的真相,通过统计学的模型可以把缺失的信息补全,用来预测未来的信息,这就是大数据的本质。
本文为北京明略软件系统有限公司董事长吴明辉先生做客庐客汇晚课的分享。
吴明辉,北京明略软件系统有限公司董事长,北京大学数学学士、计算机软件与理论硕士;拥有20余项国内外发明专利;多次获国际算法大奖
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。